重複を分析できるよう結合結果で分析を生成 - 7.3

Talend Data Fabric Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Data Fabric
Module
Talend Studio
Content
ジョブデザインと開発

場合によっては、重複レコードとJOIN句が含まれているデータベーステーブルをSQLビジネスルールを使って分析すると、分析テーブルよりも結合のほうに多くの行が存在するという結果が出ることがあります。

既製分析を生成し、そのような重複レコードを分析できます。この分析の結果によって、テーブルよりも結合結果のほうに多くのレコードが存在する理由をさらに理解できるようになります。

始める前に

Talend Studio Profiling パースペクティブで、SQLビジネスルールと結合条件を備えるテーブル分析が定義および実行されています。テーブルに重複値があることが結合結果に示される必要があります。

詳細は、結合条件を持つSQLビジネスルールでテーブル分析を作成するを参照してください。

手順

  1. 結合条件を持つSQLビジネスルールでテーブル分析を作成するの手順に従い、分析を作成して重複レコードを含んでいるテーブルで実行した後、分析エディターの下部にある[Analysis Results] (分析結果)タブをクリックします。
  2. 2番目のテーブルにある結合結果を右クリックし、[Analyze duplicates] (重複の分析)を選択します。

    [Column Selection] (カラム選択)ダイアログボックスが開き、デフォルトで選択された分析済みのテーブルが表示されます。

  3. 必要に応じてダイアログボックスの選択項目を変更し、[OK]をクリックします。
    2つのカラム分析が生成され、[DQ Repository] (DQリポジトリー)ツリービューの[Analyses] (分析)フォルダーの下にリストされ、分析エディター内に開きます。
  4. 分析を保存し、[F6]を押して実行します。
    分析結果に2つの棒グラフが表示されます。1つは分析対象カラムにあるデータレコードの行数を表し、もう1つは重複カウントを表します。
  5. 分析エディターの下部にある[Analysis Results] (分析結果)をクリックし、詳細な結果ビューにアクセスします。
  6. テーブル内の行数または重複カウントを右クリックするか、チャート自体の結果棒グラフを右クリックして、次のオプションを選択します。
    オプション 操作

    [View rows] (行を表示)

    分析対象カラムの全データ行、または重複行のリストでビューを開きます。
    [View values] (値の表示) 分析対象カラムの重複データ値のリストでビューを開きます。
    [Identify duplicates] (重複の検出) 後続処理のため、選択されたカラムでユニークなレコードと重複レコードを検出および区別する既製ジョブを生成します。このジョブによって、重複レコードはすべてデフォルトでリジェクトファイル(.csv)に出力され、ユニークな値は別のファイルに書き込まれます。