分析対象カラムの重複値を特定するジョブの生成 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Studioの Profiling パースペクティブを使用してデータベーステーブルのカラムを分析し、個別値、ユニークな値、および重複値についてシンプル統計を行うと、後で指定したカラムから重複値を取り除く既製ジョブを生成することができます。

シンプル統計グループのさまざまなインジケーターのタイプの詳細については、[Simple statistics] (シンプル統計)を参照してください。

分析対象カラムの重複値を特定するには、以下のようにします:

  1. Studioの Profiling パースペクティブで、カラム分析を作成して指定したカラムにシンプル統計インジケーターを設定します。カラム分析の作成方法の詳細な手順は、分析するカラムの定義とインジケーターの設定を参照して下さい。

  2. 分析を実行し、結果を[Analysis Results] (分析結果)ビュー内に開きます。

  3. ユニークな値および重複値を分類する分析対象カラムの名前をクリックしてから、[Simple Statistics] (シンプル統計)をクリックして、シンプル統計セクションを展開します。

  4. [Label] (ラベル)リストで、[Distinct Count] (重複を除いたカウント)[Unique Count] (一意カウント)、または[Duplicate Count] (重複カウント)を右クリックして、コンテキストメニューから[Identify duplicates] (重複の検出)を選択します。

    Studioで 統合 パースペクティブが開き、対応するコンポーネントを含む生成されたジョブが表示されます。これらのコンポーネントの詳細は、『Talendコンポーネントリファレンスガイド』を参照して下さい。

    データベース入力コンポーネントおよびtUniqueRowコンポーネントは、接続および分析対象カラムに応じて既に設定されています。

    2つの出力コンポーネントは、この既製ジョブではファイルコンポーネントですが、これをデータベース出力コンポーネントに置き換えて、重複値および個別値を直接目的のデータベースに書き込むこともできます。

2つの出力コンポーネントを設定するには、以下のようにします:

  1. 最初に[Uniques] (ユニーク値)接続を持つ出力コンポーネントをダブルクリックし、[Local Filename] (ローカルファイル名)フィールドで個別値を格納する出力ファイルのパスを設定します。

  2. 次に[Duplicates] (重複)接続を持つ出力コンポーネントをダブルクリックし、[File Name] (ファイル名)フィールドで重複値を保管する出力ファイルのパスを設定します。

  3. ジョブを保存し、[F6]を押して実行します。

    個別値および重複値は、指定された出力ファイルに書き込まれます。

  4. 必要に応じて、生成されたジョブでtFileOutputdelimitedを右クリックし、[Data Viewer] (データビューア) (データビューア)を選択します。

    Studioに標準化されたデータのプレビューが開きます。