重複値の削除 - 8.0

Data Qualityジョブと分析の例

Version
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Open Studio for Data Quality
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
データクオリティとプレパレーション
Last publication date
2023-12-14

シンプル統計インジケーターを使ってemailカラムとpostalカラムを分析したら、分析結果にカラム内の重複レコード数が示されます。分析結果から既製ジョブを生成できます。このジョブにより、選択したカラムから重複値が除去されます。

同じ手順を使って、メールまたは電話番号のカラムからも重複値を除去できます。

手順

  1. Profilingパースペクティブで、エディターの下部にある[Analysis Results] (分析結果)をクリックします。
  2. emailカラムの[Simple Statistics] (シンプル統計)結果に示されるグラフで、重複数バーを右クリックし、[Remove duplicates] (重複値の除去)をクリックします。

    この例では、メールカラムに使用されているシンプル統計の結果を使用します。

    Integrationパースペクティブが開き、生成されたジョブが表示されます。

    分析結果から自動生成されたジョブ。

    データベース入力コンポーネントとtUniqRowコンポーネントは、接続と、分析中のカラムに従って設定されています。

  3. ジョブを保存し、F6を押して実行します。

タスクの結果

重複値は、指定した出力ファイルに書き込まれます。

次のタスク

同じ手順を使って、postalカラムからも重複値を除去できます。

Profilingパースペクティブを使って破損、不完全、不正確なデータを特定して削除する方法は、Talend Studioユーザーガイドのデータクレンジングをご覧ください。