重複を除いた値(個別値)の抽出 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このタスクについて

Studioの Profiling パースペクティブで、カラム分析を作成し、カラムの個別値の中で最も頻出する値の数を計算することができます。カラム分析を実行すると、値の頻度から個別値を出力ファイルに抽出する既製ジョブを生成できます。

次に、それらの個別値をその他のデータ標準化プロセスの参照データセットとして使用できます。

以下のサンプルでは、MySQLデータベースでのpostal_codeのカラム分析が、Studioの Profiling パースペクティブで作成され実行されています。

前提条件: [Value Frequency] (値の頻度)インジケーターを使用するカラム分析が作成され実行されていること。

値の頻度から個別値を抽出するジョブを生成するには、次の手順に従います

手順

  1. 分析エディターで、[Value Frequency] (値の頻度)インジケーターを右クリックします。
  2. [Generate Job] (ジョブの生成)を選択します。
    統合 パースペクティブに生成されたジョブが開きます。
    データベースコンポーネントの基本設定は、カラム分析で使用したデータベース接続に従って定義済みです。
    tAggregateRowコンポーネントの基本設定は、postal_codeカラムの値の頻度から個別値を数えるように定義済みです。
  3. 必要に応じて、異なる出力コンポーネントを使い、異なるタイプのファイルまたはデータベース内の個別値を再取得します。
  4. ジョブを保存し、[F6]を押して実行します。
    このジョブにより値の頻度から個別値が抽出され、定義した出力ファイルに書き込まれます。
    次に、データクオリティジョブでこのファイルを参照ファイルとして使用できます。たとえば、郵便番号のデータを一致させる場合に、このファイルの郵便番号を使用できます。
    データクオリティコンポーネントとジョブの詳細については、『Talendコンポーネントリファレンスガイド』のデータクオリティの章を参照して下さい。