重複値の削除 - 7.3

Talend Data Fabric入門ガイド

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

カラム分析のプロファイリング結果は、電子メールと電話番号のカラムに重複レコードがあることを示しています。詳細は分析結果の表示をチェックして下さい。

分析結果から、選択したカラム内のユニークなレコードと重複レコードを区別する標準ジョブを生成することができます。そのジョブは、デフォルトでリジェクト区切り記号付きファイル内の重複をすべて出力し、分析で使用されるデータベースにユニーク値を書き込みます。

同じ手順を使って、電子メールまたは電話番号のカラムからも重複値を除去できます。

始める前に

  • StudioでProfilingパースペクティブを開いていること。

  • カラム分析を作成し、実行済みであること。詳細は、データの異常を識別するを参照して下さい。

手順

  1. Profilingパースペクティブでカラム分析を開き、エディターの下部にある[Analysis Results] (分析結果)をクリックします。
  2. 電子メールまたは電話番号のカラムの[Simple Statistics] (シンプル統計)結果で、[Duplicate Count] (重複カウント)を右クリックし、[Identify duplicates] (重複の検出)を選択します。

    この例では、電子メールカラムに使用されているシンプル統計の結果を使用します。

    統合パースペクティブが開いて、生成されたジョブが表示されます。ジョブは[Repository] (リポジトリ)ツリービュー内に表示されます。

    コンポーネントtMysqlInputtUniqueRowtMysqlOutputBulkExecは、接続と分析中のカラムに従って自動的に設定されます。tMysqlOutputBulkExecはMySQL内の新しいテーブルにユニークなレコードを書き込み、tFileOutputDelimitedは出力区切り記号付きファイルに重複レコードを書き込みます。

  3. [F6]を押してジョブを実行します。

タスクの結果

重複値は出力ファイルに書き込まれ、ユニークなレコードはMySQL内のgettingstartedデータベースの新しいテーブルに書き込まれます。