一致ルールの作成 - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio
データの品質管理においては、一致ルールを使用してカラムセットを比較し、ブロッキングキーおよびマッチングキーやサバイバーシップ機能を使用して類似レコードのグループを作成します。

StudioのProfilingパースペクティブから、VSRまたはT-Swooshアルゴリズムを使用して一致ルールを作成し、Studioリポジトリーに保存することができます。リポジトリーで一元管理された一致ルールは、マッチング分析エディターにインポートし、重複レコードをグループ化するために自分のデータでテストできます。マッチング分析の詳細については、マッチング分析の作成を参照して下さい。

また、VSRアルゴリズムを使用して定義されたルールは、tMatchGroup設定ウィザードやその他の一致コンポーネント(Hadoopコンポーネントなど)にインポートして、一致ジョブでそのルールを使用することもできます。詳細は、tMatchGroupのドキュメントを参照して下さい。 Talend Components Reference Guide

2つのアルゴリズムは、次の2つの理由から異なる一致結果を生成します。
  • 第1に、VSRアルゴリズムの最初の入力レコードとして、単純にマスターレコードが選択されます。そのため、一致グループのリストが入力レコードの順番によって異なる場合があります。

  • 第2に、出力レコードはVSRアルゴリズムでは変更されませんが、T-Swooshアルゴリズムでは新しいレコードが作成されます。