対象製品...Big Data Platform
Cloud API Services Platform
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
場合によっては、重複レコードとJOIN句が含まれているデータベーステーブルをSQLビジネスルールを使って分析すると、分析テーブルよりも結合のほうに多くの行が存在するという結果が出ることがあります。
既製分析を生成し、そのような重複レコードを分析できます。この分析の結果によって、テーブルよりも結合結果のほうに多くのレコードが存在する理由をさらに理解できるようになります。
始める前に
Talend Studioの
Profilingパースペクティブで、SQLビジネスルールと結合条件を備えるテーブル分析が定義および実行されています。テーブルに重複値があることが結合結果に示される必要があります。
詳細は、結合条件を持つSQLビジネスルールでテーブル分析を作成をご覧ください。
手順
-
結合条件を持つSQLビジネスルールでテーブル分析を作成の手順に従い、分析を作成して重複レコードを含んでいるテーブルで実行した後、分析エディターの下部にある[Analysis Results] (分析結果)タブをクリックします。
-
2番目のテーブルにある結合結果を右クリックし、[Analyze duplicates] (重複の分析)を選択します。
[Column Selection] (カラム選択)ダイアログボックスが開き、デフォルトで選択された分析済みのテーブルが表示されます。
-
必要に応じてダイアログボックスの選択項目を変更し、[OK]をクリックします。
2つのカラム分析が生成され、
[DQ Repository] (DQリポジトリー)ツリービューの
[Analyses] (分析)フォルダーの下にリストされ、分析エディター内に開きます。
-
分析を保存し、F6を押して実行します。
分析結果に2つの棒グラフが表示されます。1つは分析済みカラムにあるデータレコードの行数を表し、もう1つは重複値を表します。
-
分析エディターの下部にある[Analysis Results] (分析結果)をクリックし、詳細な結果ビューにアクセスします。
-
テーブル内の行数または重複値を右クリックするか、チャート自体の結果棒グラフを右クリックして、次のオプションを選択します。
オプション |
操作 |
[View rows] (行を表示)
|
分析済みカラムの全データ行、または重複行のリストでビューを開きます。 |
[View values] (値を表示) |
分析済みカラムの重複データ値のリストでビューを開きます。 |
[Identify duplicates] (重複を検出) |
後続処理のため、選択されたカラムでユニークなレコードと重複レコードを検出および区別する既製ジョブを生成します。このジョブによって、重複レコードはすべてデフォルトでリジェクトファイル(.csv)に出力され、ユニークな値は別のファイルに書き込まれます。 |