重複値の削除 - 7.3

Data Qualityジョブと分析の例

EnrichVersion
7.3
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Open Studio for Data Quality
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
データクオリティとプレパレーション

単純統計インジケーターを使ってemailカラムとpostalカラムを分析したら、分析結果にカラム内の重複レコード数が示されます。分析結果から既製ジョブを生成できます。このジョブにより、選択したカラムから重複値が除去されます。

同じ手順を使って、電子メールまたは電話番号のカラムからも重複値を除去できます。

手順

  1. Profilingパースペクティブで、エディターの下部にある[Analysis Results] (分析結果)をクリックします。
  2. emailカラムの[Simple Statistics] (シンプル統計)結果に示されるグラフで、重複数バーを右クリックし、[Remove duplicates] (重複値の除去)をクリックします。

    この例では、電子メールカラムに使用されているシンプル統計の結果を使用します。

    統合パースペクティブが開き、生成されたジョブが示されます。

    データベース入力コンポーネントとtUniqueRowコンポーネントは、接続と、分析中のカラムに従って設定されています。

  3. ジョブを保存し、[F6]を押して実行します。

タスクの結果

重複値は、指定した出力ファイルに書き込まれます。

次のタスク

同じ手順を使って、postalカラムからも重複値を除去できます。

Profilingパースペクティブを使用して破損、不完全、または不正確なデータを特定して削除する方法の詳細は、Talend Studioユーザーガイドの[Data Cleansing] (データクレンジング)の章を参照してください。