個別値の抽出 - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-03-13
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

始める前に

[Value Frequency] (値の頻度)インジケーターを使用するカラム分析が作成され実行されていること。

このタスクについて

Profilingパースペクティブで、カラム分析を作成し、カラムの個別値の中で最も頻出する値の数を計算できます。カラム分析を実行すると、値の頻度から個別値を出力ファイルに抽出する既製ジョブを生成できます。

これで、その他のデータ標準化プロセスの参照データセットとしてこの個別値を使用できるようになります。

以下の例では、MySQLデータベースでのpostal_codeカラムの分析がProfilingパースペクティブで作成および実行されています。

手順

  1. 分析エディターで、[Value Frequency] (値の頻度)インジケーターを右クリックします。
    [分析済みカラム]セクションからのインジケーターのコンテキストメニュー。
  2. [Generate Job] (ジョブの生成)を選択します。
    生成されたジョブでIntegrationパースペクティブが開きます。
    tMysqlInput、tAggregateRow、tFileOutputDelimitedの各コンポーネントを使って生成されたジョブ。
    データベースコンポーネントの基本設定は、カラム分析で使用したデータベース接続に従って定義済みです。
    tAggregateRowコンポーネントの基本設定は、postal_codeカラムの値の頻度から個別数をカウントするように定義済みです。
    tAggregateRowの基本設定の概要。
  3. オプション: さまざまな出力コンポーネントを使い、異なるタイプのファイルやデータベースにある個別値を再取得します。
  4. ジョブを保存し、F6を押して実行します。
    このジョブにより値の頻度から個別値が抽出され、定義した出力ファイルに書き込まれます。
    次に、データクオリティジョブでこのファイルを参照ファイルとして使用できます。たとえば、郵便番号のデータを一致させる場合にこのファイルの郵便番号を使用できます。
    データクオリティコンポーネントとジョブの詳細は、Data Qualityコンポーネントをご覧ください。