重複を分析できるよう結合結果で分析を生成 - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2023-09-26
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

場合によっては、重複レコードとJOIN句が含まれているデータベーステーブルをSQLビジネスルールを使って分析すると、分析テーブルよりも結合のほうに多くの行が存在するという結果が出ることがあります。

既製分析を生成し、そのような重複レコードを分析できます。この分析の結果によって、テーブルよりも結合結果のほうに多くのレコードが存在する理由をさらに理解できるようになります。

始める前に

Talend StudioProfilingパースペクティブで、SQLビジネスルールと結合条件を備えるテーブル分析が定義および実行されています。テーブルに重複値があることが結合結果に示される必要があります。

詳細は、結合条件を持つSQLビジネスルールでテーブル分析を作成をご覧ください。

手順

  1. 結合条件を持つSQLビジネスルールでテーブル分析を作成の手順に従い、分析を作成して重複レコードを含んでいるテーブルで実行した後、分析エディターの下部にある[Analysis Results] (分析結果)タブをクリックします。
  2. 2番目のテーブルにある結合結果を右クリックし、[Analyze duplicates] (重複の分析)を選択します。

    [Column Selection] (カラム選択)ダイアログボックスが開き、デフォルトで選択された分析済みのテーブルが表示されます。

  3. 必要に応じてダイアログボックスの選択項目を変更し、OKをクリックします。
    2つのカラム分析が生成され、[DQ Repository] (DQリポジトリー)ツリービューの[Analyses] (分析)フォルダーの下にリストされ、分析エディター内に開きます。
  4. 分析を保存し、F6を押して実行します。
    分析結果に2つの棒グラフが表示されます。1つは分析済みカラムにあるデータレコードの行数を表し、もう1つは重複値を表します。
  5. 分析エディターの下部にある[Analysis Results] (分析結果)をクリックし、詳細な結果ビューにアクセスします。
  6. テーブル内の行数または重複値を右クリックするか、チャート自体の結果棒グラフを右クリックして、次のオプションを選択します。
    オプション 操作

    [View rows] (行を表示)

    分析済みカラムの全データ行、または重複行のリストでビューを開きます。
    [View values] (値を表示) 分析済みカラムの重複データ値のリストでビューを開きます。
    [Identify duplicates] (重複を検出) 後続処理のため、選択されたカラムで一意レコードと重複レコードを検出および区別する既製ジョブを生成します。このジョブによって、重複レコードはすべてデフォルトでリジェクトファイル(CSV)に出力され、一意値は別のファイルに書き込まれます。