メイン コンテンツをスキップする 補完的コンテンツへスキップ

個別値の抽出

このタスクについて

Profilingパースペクティブで、カラム分析を作成し、カラムの個別値の中で最も頻出する値の数を計算できます。カラム分析を実行すると、値の頻度から個別値を出力ファイルに抽出する既製ジョブを生成できます。

これで、その他のデータ標準化プロセスの参照データセットとしてこの個別値を使用できるようになります。

以下の例では、MySQLデータベースでのpostal_codeカラムの分析がProfilingパースペクティブで作成および実行されています。

前提条件: [Value Frequency] (値の頻度)インジケーターを使用するカラム分析が作成され実行されていること。

値の頻度から個別値を抽出するジョブを生成するには、次の手順に従います

手順

  1. 分析エディターで、[Value Frequency] (値の頻度)インジケーターを右クリックします。
  2. [Generate Job] (ジョブの生成)を選択します。
    生成されたジョブでIntegrationパースペクティブが開きます。
    データベースコンポーネントの基本設定は、カラム分析で使用したデータベース接続に従って定義済みです。
    tAggregateRowコンポーネントの基本設定は、postal_codeカラムの値の頻度から個別値をカウントするように定義済みです。
  3. オプション: さまざまな出力コンポーネントを使い、異なるタイプのファイルやデータベースにある個別値を再取得します。
  4. ジョブを保存し、F6を押して実行します。
    このジョブにより値の頻度から個別値が抽出され、定義した出力ファイルに書き込まれます。
    次に、データクオリティジョブでこのファイルを参照ファイルとして使用できます。たとえば、郵便番号のデータを一致させる場合に、このファイルの郵便番号を使用できます。
    Data Qualityコンポーネントとジョブの詳細は、Talendコンポーネントリファレンスガイドのデータクオリティに関する章をご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。