個別値の抽出 - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-02-13
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

このタスクについて

Profilingパースペクティブで、カラム分析を作成し、カラムの個別値の中で最も頻出する値の数を計算できます。カラム分析を実行すると、値の頻度から個別値を出力ファイルに抽出する既製ジョブを生成できます。

これで、その他のデータ標準化プロセスの参照データセットとしてこの個別値を使用できるようになります。

以下の例では、MySQLデータベースでのpostal_codeカラムの分析がProfilingパースペクティブで作成および実行されています。

前提条件: [Value Frequency] (値の頻度)インジケーターを使用するカラム分析が作成され実行されていること。

値の頻度から個別値を抽出するジョブを生成するには、次の手順に従います

手順

  1. 分析エディターで、[Value Frequency] (値の頻度)インジケーターを右クリックします。
  2. [Generate Job] (ジョブの生成)を選択します。
    生成されたジョブでIntegrationパースペクティブが開きます。
    データベースコンポーネントの基本設定は、カラム分析で使用したデータベース接続に従って定義済みです。
    tAggregateRowコンポーネントの基本設定は、postal_codeカラムの値の頻度から個別値をカウントするように定義済みです。
  3. オプション: さまざまな出力コンポーネントを使い、異なるタイプのファイルやデータベースにある個別値を再取得します。
  4. ジョブを保存し、F6を押して実行します。
    このジョブにより値の頻度から個別値が抽出され、定義した出力ファイルに書き込まれます。
    次に、データクオリティジョブでこのファイルを参照ファイルとして使用できます。たとえば、郵便番号のデータを一致させる場合に、このファイルの郵便番号を使用できます。
    Data Qualityコンポーネントとジョブの詳細は、Talendコンポーネントリファレンスガイドのデータクオリティに関する章をご覧ください。