マッチング測定 - Cloud - 8.0

Talendツールを使ってデータマッチング

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
Last publication date
2024-02-06
2つのレコードの1つの属性を比較するには、[Exact] (正確)[Levenshtein] (レーベンシュタイン)、およびJaro-Winklerなどの実装済みのマッチング関数からいずれかを選ぶか、または作成したカスタムマッチングアルゴリズムを使用します。

2つのレコードを多数の属性で比較することもできます。2つのレコードがマッチングするには、次の2つの条件が当てはまる必要があります。

  • T-Swooshアルゴリズムを使用する場合、マッチングルール内の各マッチング関数のスコアは、しきい値が指定されていれば、それを超えている必要があります。デフォルトでは、しきい値は1に設定されています。これはすなわち、[Exact - ignore case] (正確-大文字と小文字を区別しない)と潜在的にはカスタムマッチング関数を除いて、ほとんどのマッチング関数の場合、完全マッチングを意味します。
  • さまざまに異なるマッチング関数の加重スコアとして計算されたグローバルスコアは、マッチングしきい値を超えている必要があります。スコアは次の式の結果と等しくなります: Σ(wi × si(r1,r2)) / Σwiここで wi はマッチング関数 i および si(r1,r2) はマッチング関数 i (レコード r1 および r2

この例では、fname属性における[Jaro-Winkler]メトリックのスコアが0.7を超えていること、グローバルスコアが、2つある属性のそれぞれで1の重み付けによって0.85を超えていることが必要です。

この例では、類似する2つのレコードのグローバルスコアに従う加重平均計算を示しています。
  1. どちらの属性も[Confidence Weight] (重み付け)が1に設定されているため、各属性の正規化された重みは0.5となります。
  2. 属性のマッチング距離はlname属性で1、fname属性で0.722...となります。
  3. スコアの計算方法は0.5 x 1 + 0.5 x 0.722... = 0.8611...となります。