VSRアルゴリズムを使ったルール - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

VSRアルゴリズムはレコードのセットを入力とみなし、定義された一致ルールに基づいて、検出された類似の重複値をグループ化します。このアルゴリズムは、レコードのペアを比較してグループに割り当てます。各グループで最初に処理されたレコードがそのグループのマスターレコードとなります。そのため、レコードの順序が重要であり、マスターレコードの作成プロセスに影響を及ぼす可能性があります。

VSRアルゴリズムは各レコードを各グループのマスターレコードと比較し、計算されたマスターレコードからの距離を使ってそのグループの割り当て先を決定します。

一致分析と一致コンポーネントの場合、VSRアルゴリズムの一致結果は入力レコードの順序によって異なります。可能な場合は、より信頼できるレコードを入力フローの先頭に配置すると、アルゴリズムの精度が向上します。

一致コンポーネント(Hadoop一致コンポーネントを含む)では、VSRアルゴリズムで設定されたルールのみが実行される点に注意して下さい。

このルールを一致分析エディターにインポートし、自分のデータでテストできます。詳細は、一致ルールのインポートまたはエクスポートを参照して下さい。

また、tMatchGroup設定ウィザードおよびその他の一致コンポーネント(Hadoopコンポーネントなど)にそのルールをインポートし、一致ジョブで使用することもできます。詳細は、『XXX Reference GuideTalend Components」ドキュメンテーションを参照して下さい。