一致分析の作成 - 7.3

Talend Big Data Platform Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発

Talend DQ PortalTalend 7.1以降、非推奨となっています。

マッチング分析では、ブロッキングキーやマッチングキーまたはサバイバーシップルールを使ってデータベース内または区切り記号付きファイル内のカラムのセットを比較し、類似するレコードのグループを作成できます。

このタスクについて

この分析によって、マッチングルールを作成してデータでテストし、tMatchGroupコンポーネントでマッチングルールを使用する前などに重複値の数を評価できます。現在、同じテーブル内のカラムに対してのみ、マッチングルールをテストできます。

前提条件: Talend Studio Profiling パースペクティブを選択していること。[Metadata] (メタデータ)ノードの下で、データベースかファイル接続が少なくとも1つ定義されていること。

マッチング分析をセットアップするシーケンスには、次の手順が含まれます。

手順

  1. Studioのツリービューの[Metadata] (メタデータ)フォルダーの下で定義されている接続がない場合は、エディター内からデータソースへの接続を作成する。
    詳細は、一致分析の設定を参照してください。
  2. 一致プロセスを使用して、類似するレコードを検索したいテーブルまたはカラムのグループを定義する。
  3. ブロッキングキーを定義して、比較が必要なペアの数を減らす。
    詳細は、マッチングルールの定義を参照してください。
  4. グループ化する類似のレコードに基づいて、マッチングキーと一致メソッドを定義する。詳細は、マッチングルールの定義を参照してください。
  5. マッチング分析エディターからマッチングルールをエクスポートして、Studioリポジトリーで一元管理する。
  6. マッチング分析に基づいてレポートを生成し、遠隔データベースで履歴を生成する。これらのレポートを使用して現在と履歴の統計を比較し、データクオリティの向上または劣化を判断できます。詳細は、レポートとは?を参照してください。
  7. Studioで生成されたレポートの検討および監視を可能にする異なる分析ツールにアクセスします。ポータルの詳細は、Talend DQ Portalユーザー&管理者ガイドを参照してください。ポータルのインストールに関する詳細は、Talendインストール&アップグレードガイドを参照してください。