分析対象カラムの重複値を特定するジョブの生成 - 7.1

Talend Data Fabric Studio ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Talend StudioProfilingパースペクティブを使用してデータベーステーブルのカラムを分析し、個別値、ユニークな値、および重複値についてシンプル統計を行うと、後で指定したカラムから重複値を取り除く既製Jobを生成することができます。

シンプル統計グループのさまざまなインジケーターのタイプの詳細については、[Simple statistics] (シンプル統計)を参照してください。

手順

  1. Talend StudioProfilingパースペクティブで、カラム分析を作成して指定したカラムにシンプル統計インジケーターを設定します。カラム分析の作成方法の詳細な手順は、分析するカラムの定義とインジケーターの設定を参照してください。
  2. 分析を実行し、結果を[Analysis Results] (分析結果)ビュー内に開きます。
  3. 一意値および重複値を分類する分析対象カラムの名前をクリックしてから、[Simple Statistics] (シンプル統計)をクリックして、シンプル統計セクションを展開します。
  4. [Label] (ラベル)リストで、[Distinct Count] (重複を除いたカウント)[Unique Count] (一意カウント)[Duplicate Count] (重複カウント)のいずれかを右クリックして、コンテキストメニューから[Identify duplicates] (重複の検出)を選択します。

    StudioでIntegrationパースペクティブが開き、対応するコンポーネントを含む生成されたジョブが表示されます。これらのコンポーネントの詳細は、『Talendコンポーネントリファレンスガイド』を参照して下さい。

    データベース入力コンポーネントおよびtUniqueRowコンポーネントは、接続および分析対象カラムに応じて既に設定されています。

    2つの出力コンポーネントは、この既製ジョブではファイルコンポーネントですが、これをデータベース出力コンポーネントに置き換えて、重複値および個別値を直接目的のデータベースに書き込むこともできます。

  5. 2つの出力コンポーネントを次の手順で設定します。
    1. SQLiteデータベースを使用している場合は、実行中にエラーが発生します。SQLiteは書き込み中にデータベースをロックするので、tDBOutputコンポーネントをtFileOutputDelimitedに置換する必要があります。
    2. 最初に[Uniques] (一意値)接続を持つ出力コンポーネントをダブルクリックし、[Local Filename] (ローカルファイル名)フィールドで個別値を保存する出力ファイルのパスを設定します。
    3. 次に[Duplicates] (重複)接続を持つ出力コンポーネントをダブルクリックし、[File Name] (ファイル名)フィールドで重複値を保管する出力ファイルのパスを設定します。
    4. ジョブを保存し、[F6]を押して実行します。
      個別値および重複値は、指定された出力ファイルに書き込まれます。
    5. 必要に応じて、生成されたジョブでtFileOutputdelimitedを右クリックし、[Data Viewer] (データビューアー)を選択します。

      Talend Studioに標準化されたデータのプレビューが開きます。