重複値を削除する - 6.5

データのクレンジング

EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発
データクオリティとプレパレーション
データクオリティとプレパレーション > データクレンジング
単純統計インジケーターを使ってemailカラムとpostalカラムを分析したら、分析結果にカラム内の重複レコード数が示されます。分析結果から既製ジョブを生成できます。このジョブにより、選択したカラムから重複値が除去されます。

手順

  1. Profilingパースペクティブで、エディターの下部にある[Analysis Results] (分析結果)をクリックします。
  2. emailカラムのSimple Statistics (単純統計)結果に示されるグラフで、重複数バーを右クリックし、[Remove duplicates] (重複値の除去)をクリックします。

    Talend Studio統合パースペクティブが開き、該当するコンポーネントで生成されたジョブが表示されます。

    これらのコンポーネントの詳細は、『Talend Components Reference Guide』を参照して下さい。

    データベース入力コンポーネントとtUniqueRowコンポーネントは、接続と、分析中のカラムに従って設定されています。

  3. ジョブを保存し、F6を押して実行します。

タスクの結果

重複値は、指定した出力ファイルに書き込まれます。

次のタスク

同じ手順を使って、postalカラムからも重複値を除去できます。

Profilingパースペクティブを使用して、破損した、不完全、または不正確なデータを特定し、削除するプロセスについては、「 データクレンジング 」(Talend Studioユーザーガイド)を参照して下さい。