メイン コンテンツをスキップする

VSRアルゴリズムを使ったルール

VSRアルゴリズムはレコードのセットを入力と見なし、定義されたマッチルールに基づいて、検出された類似の重複値をグルーピングします。このアルゴリズムは、レコードのペアを比較してグループに割り当てます。各グループで最初に処理されたレコードがそのグループのマスターレコードとなります。そのため、レコードの順序が重要であり、マスターレコードの作成プロセスに影響を及ぼす可能性があります。

VSRアルゴリズムは各レコードを各グループのマスターレコードと比較し、計算されたマスターレコードからの距離を使ってそのグループの割り当て先を決定します。

一致分析と一致コンポーネントの場合、VSRアルゴリズムの一致結果は入力レコードの順序によって異なります。可能な場合は、より信頼できるレコードを入力フローの先頭に配置すると、アルゴリズムの精度が向上します。

一致コンポーネント(Hadoop一致コンポーネントを含む)では、VSRアルゴリズムで設定されたルールのみが実行される点にご注意ください。

このルールを一致分析エディターにインポートし、自分のデータでテストできます。詳細は、リポジトリーからマッチングルールをインポートをご覧ください。

また、tMatchGroup設定ウィザードおよびその他の一致コンポーネント(Hadoopコンポーネントなど)にそのルールをインポートし、一致ジョブで使用することもできます。詳細は、tMatchGroupのドキュメンテーションをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。