重複を分析できるよう結合結果で分析を生成する - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

場合によっては、JOIN句を含んでいるSQLビジネスルールを使ってデータベーステーブルを分析すると、分析テーブルよりも結合のほうに多くの行が存在するという結果が出ることがあります。

これは、分析対象テーブルに重複するレコードがいくつか含まれていること理由です。結合条件を持つSQLビジネスルールでテーブル分析を作成するでその例を参照してください。

既製分析を生成し、そのような重複レコードを分析することができます。この分析の結果によって、テーブルよりも結合結果のほうに多くのレコードが存在する理由をさらに理解できるようになります。

始める前に

Studioの Profiling パースペクティブで、SQLビジネスルールとともに結合条件も持つテーブル分析が定義および実行されています。テーブルに重複値があることが結合結果に示される必要があります。詳細は、結合条件を持つSQLビジネスルールでテーブル分析を作成するを参照して下さい。

手順

  1. 結合条件を持つSQLビジネスルールでテーブル分析を作成するの手順に従い、分析を作成して重複レコードを含んでいるテーブルで実行した後、分析エディターの下部にある[Analysis Results] (分析結果)タブをクリックします。
  2. 2番目のテーブルにある結合結果を右クリックし、[Analyze duplicates] (重複の分析)を選択します。

    [Column Selection] (カラム選択)ダイアログボックスが開き、デフォルトで選択された分析済みのテーブルが表示されます。

  3. 必要に応じてダイアログボックスの選択項目を変更し、[OK]をクリックします。
    2つのカラム分析が生成され、[DQ Repository] (DQリポジトリ)ツリービューの[Analyses] (分析)フォルダーの下にリストされ、分析エディター内に開きます。
  4. 分析を保存し、[F6]を押して実行します。
    分析結果に2つの棒グラフが表示されます。1つは分析対象カラムにあるデータレコードの行カウントを表し、もう1つは重複カウントを表します。
  5. 分析エディターの下部にある[Analysis Results] (分析結果)をクリックし、詳細な結果ビューにアクセスします。
  6. テーブル内の行カウントまたは重複カウントを右クリックするか、チャート自体の結果棒グラフを右クリックして、次のオプションを選択します。

    オプション

    内容...

    [View rows] (行を表示)

    分析対象カラムの全データ行、または重複行のリストでビューを開きます。

    [View values] (値の表示)

    分析対象カラムの重複データ値のリストでビューを開きます。

    [Identify duplicates] (重複の検出)

    後続処理のため、選択されたカラムでユニークなレコードと重複レコードを検出および区別する既製ジョブを生成します。このジョブによって、重複レコードはすべてデフォルトでリジェクトファイル(.csv)に出力され、ユニークな値は別のファイルに書き込まれます。詳細は、分析対象カラムの重複値を特定するジョブの生成を参照して下さい。