メイン コンテンツをスキップする 補完的コンテンツへスキップ

重複値の削除

シンプル統計インジケーターを使ってemailカラムとpostalカラムを分析したら、分析結果にカラム内の重複レコード数が示されます。分析結果から既製ジョブを生成できます。このジョブにより、選択したカラムから重複値が除去されます。

同じ手順を使って、メールまたは電話番号のカラムからも重複値を除去できます。

手順

  1. Profilingパースペクティブで、エディターの下部にある[Analysis Results] (分析結果)をクリックします。
  2. emailカラムの[Simple Statistics] (シンプル統計)結果に示されるグラフで、重複数バーを右クリックし、[Remove duplicates] (重複値の除去)をクリックします。

    この例では、メールカラムに使用されているシンプル統計の結果を使用します。

    Integrationパースペクティブが開き、生成されたジョブが表示されます。

    分析結果から自動生成されたジョブ。

    データベース入力コンポーネントとtUniqRowコンポーネントは、接続と、分析中のカラムに従って設定されています。

  3. ジョブを保存し、F6を押して実行します。

タスクの結果

重複値は、指定した出力ファイルに書き込まれます。

次のタスク

同じ手順を使って、postalカラムからも重複値を除去できます。

Profilingパースペクティブを使って破損、不完全、不正確なデータを特定して削除する方法は、Studio Talendユーザーガイドのデータクレンジングをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。