重複値を削除 - 7.3

Talend Data Management Platform 入門ガイド

Version
7.3
Language
日本語
Operating system
Data Management Platform
Product
Talend Data Management Platform
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
Last publication date
2023-07-24

カラム分析のプロファイリング結果は、メールと電話番号のカラムに重複レコードがあることを示しています。詳細は分析結果を表示をチェックしてください。

分析結果から、選択したカラム内のユニークなレコードと重複レコードを区別する標準ジョブを生成できます。そのジョブは、デフォルトでリジェクト区切り付きファイル内の重複をすべて出力し、分析で使用されるデータベースに一意値を書き込みます。

同じ手順を使って、メールまたは電話番号のカラムからも重複値を除去できます。

始める前に

  • Studioで Profiling パースペクティブを開いていること。

  • カラム分析を作成し、実行済みであること。詳細は、データの異常を識別を参照してください。

手順

  1. Profilingパースペクティブでカラム分析を開き、エディターの下部にある[Analysis Results] (分析結果)をクリックします。
  2. メールまたは電話番号のカラムの[Simple Statistics] (シンプル統計)結果で、[Duplicate Count] (重複値)を右クリックし、[Identify duplicates] (重複を検出)を選択します。

    この例では、メールカラムに使用されているシンプル統計の結果を使用します。

    Integrationパースペクティブが開き、生成されたジョブは表示されて、[Repository] (リポジトリー)ツリービュー内にリスト表示されます。

    コンポーネントtMysqlInputtUniqueRowtMysqlOutputBulkExecは、接続と分析中のカラムに従って自動的に設定されます。tMysqlOutputBulkExecはMySQL内の新しいテーブルにユニークなレコードを書き込み、tFileOutputDelimitedは出力区切り付きファイルに重複レコードを書き込みます。

  3. [F6]を押してジョブを実行します。

タスクの結果

重複値は出力ファイルに書き込まれ、ユニークなレコードはMySQL内のgettingstartedデータベースの新しいテーブルに書き込まれます。