VSRアルゴリズムを使ったルール - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-03-20
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

VSRアルゴリズムはレコードのセットを入力と見なし、定義されたマッチルールに基づいて、検出された類似の重複値をグルーピングします。このアルゴリズムは、レコードのペアを比較してグループに割り当てます。各グループで最初に処理されたレコードがそのグループのマスターレコードとなります。そのため、レコードの順序が重要であり、マスターレコードの作成プロセスに影響を及ぼす可能性があります。

VSRアルゴリズムは各レコードを各グループのマスターレコードと比較し、計算されたマスターレコードからの距離を使ってそのグループの割り当て先を決定します。

一致分析と一致コンポーネントの場合、VSRアルゴリズムの一致結果は入力レコードの順序によって異なります。可能な場合は、より信頼できるレコードを入力フローの先頭に配置すると、アルゴリズムの精度が向上します。

一致コンポーネント(Hadoop一致コンポーネントを含む)では、VSRアルゴリズムで設定されたルールのみが実行される点にご注意ください。

このルールを一致分析エディターにインポートし、自分のデータでテストできます。詳細は、マッチングルールをリポジトリーからインポートする方法をご覧ください。

また、tMatchGroup設定ウィザードおよびその他の一致コンポーネント(Hadoopコンポーネントなど)にそのルールをインポートし、一致ジョブで使用することもできます。詳細は、tMatchGroupのドキュメンテーションをご覧ください。