マッチングルールの作成 - 7.3

Talend Big Data Platform Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
データの品質管理においては、マッチングルールを使用してカラムセットを比較し、ブロッキングキーおよびマッチングキーやサバイバーシップ機能を使用して類似レコードのグループを作成します。

Studio Profiling パースペクティブから、VSRまたはT-Swooshアルゴリズムを使用してマッチングルールを作成し、Studioリポジトリーに保存できます。リポジトリーで一元管理されたマッチングルールは、マッチング分析エディターにインポートし、重複レコードをグループ化するために自分のデータでテストできます。マッチング分析の詳細は、一致分析の作成を参照してください。

また、VSRアルゴリズムを使用して定義されたルールは、tMatchGroup設定ウィザードやその他の一致コンポーネント(Hadoopコンポーネントなど)にインポートして、一致ジョブでそのルールを使用することもできます。詳細は、『Talendコンポーネントリファレンスガイド』でtMatchGroupのドキュメンテーションを参照してください。

2つのアルゴリズムは、次の2つの理由から異なる一致結果を生成します。
  • 第1に、VSRアルゴリズムの最初の入力レコードとして、単純にマスターレコードが選択されます。そのため、一致グループのリストが入力レコードの順番によって異なる場合があります。

  • 第2に、出力レコードはVSRアルゴリズムでは変更されませんが、T-Swooshアルゴリズムでは新しいレコードが作成されます。