メイン コンテンツをスキップする 補完的コンテンツへスキップ

重複値を削除

カラム分析のプロファイリング結果は、メールと電話番号のカラムに重複レコードがあることを示しています。詳細は分析結果を表示 (英語のみ)をチェックしてください。

分析結果から、選択したカラム内のユニークなレコードと重複レコードを区別する標準ジョブを生成できます。そのジョブは、デフォルトでリジェクト区切り付きファイル内の重複をすべて出力し、分析で使用されるデータベースに一意値を書き込みます。

同じ手順を使って、メールまたは電話番号のカラムからも重複値を除去できます。

始める前に

  • Studioで Profiling パースペクティブを開いていること。

  • カラム分析を作成し、実行済みであること。詳細は、データの異常を識別 (英語のみ)を参照してください。

手順

  1. Profilingパースペクティブでカラム分析を開き、エディターの下部にある[Analysis Results] (分析結果)をクリックします。
  2. メールまたは電話番号のカラムの[Simple Statistics] (シンプル統計)結果で、[Duplicate Count] (重複値)を右クリックし、[Identify duplicates] (重複を検出)を選択します。

    この例では、メールカラムに使用されているシンプル統計の結果を使用します。

    Integrationパースペクティブが開き、生成されたジョブは表示されて、[Repository] (リポジトリー)ツリービュー内にリスト表示されます。

    コンポーネントtMysqlInputtUniqueRowtMysqlOutputBulkExecは、接続と分析中のカラムに従って自動的に設定されます。tMysqlOutputBulkExecはMySQL内の新しいテーブルにユニークなレコードを書き込み、tFileOutputDelimitedは出力区切り付きファイルに重複レコードを書き込みます。

  3. [F6]を押してジョブを実行します。

タスクの結果

重複値は出力ファイルに書き込まれ、ユニークなレコードはMySQL内のgettingstartedデータベースの新しいテーブルに書き込まれます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。