VSRアルゴリズムを使ったルール - 7.3

Talend Data Fabric Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Data Fabric
Module
Talend Studio
Content
ジョブデザインと開発

VSRアルゴリズムはレコードのセットを入力と見なし、定義されたマッチルールに基づいて、検出された類似の重複値をグループ化します。このアルゴリズムは、レコードのペアを比較してグループに割り当てます。各グループで最初に処理されたレコードがそのグループのマスターレコードとなります。そのため、レコードの順序が重要であり、マスターレコードの作成プロセスに影響を及ぼす可能性があります。

VSRアルゴリズムは各レコードを各グループのマスターレコードと比較し、計算されたマスターレコードからの距離を使ってそのグループの割り当て先を決定します。

一致分析と一致コンポーネントの場合、VSRアルゴリズムの一致結果は入力レコードの順序によって異なります。可能な場合は、より信頼できるレコードを入力フローの先頭に配置すると、アルゴリズムの精度が向上します。

一致コンポーネント(Hadoop一致コンポーネントを含む)では、VSRアルゴリズムで設定されたルールのみが実行される点にご注意ください。

このルールを一致分析エディターにインポートし、自分のデータでテストできます。詳細は、マッチングルールのインポートまたはエクスポートを参照してください。

また、tMatchGroup設定ウィザードおよびその他の一致コンポーネント(Hadoopコンポーネントなど)にそのルールをインポートし、一致ジョブで使用することもできます。詳細は、『Talendコンポーネントリファレンスガイド』でtMatchGroupのドキュメンテーションを参照してください。