tBlockedFuzzyJoinコンポーネントを設定 - Cloud - 8.0

Fuzzy matching

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
Last publication date
2023-09-07

手順

  1. tBlockedFuzzyJoinをダブルクリックして[Basic settings] (基本設定)ビューを表示し、プロパティを定義します。
  2. [Edit schema] (スキーマを編集)ボタンをクリックして、ダイアログボックスを開きます。ここで、出力コンポーネントに渡すデータを定義します。

    この例では、ref_firstnameという新しいカラムに加えて、出力コンポーネントに4つの入力カラムを渡します。

  3. [OK]をクリックしてダイアログボックスを閉じ、次の手順に進みます。
  4. tBlockedFuzzyJoin[Basic settings] (基本設定)ビューにある[Key Definition] (キー定義)エリアで、[+]ボタンをクリックして2つのカラムをリストに追加します。
  5. あいまいマッチングを行う入力カラムと出力カラムを(この例では、grpfirstname)、[Input key attribute] (入力キー属性)および[Lookup key attribute] (ルックアップキー属性)リストからそれぞれ選択します。
  6. [Matching type] (マッチングタイプ)カラムの1番目のセルをクリックし、リストから、参照データに基づいて入力データをチェックするために使用するメソッド(この例では、[Exact match] (完全マッチング))を選択します。設定する最小距離も最大距離もありません。
  7. 2番目のカラムのマッチングタイプを設定します(この例では[Levenshtein] (レーベンシュタイン)
  8. 次に、最小距離と最大距離を設定します。この方法では、距離は、エントリーが参照と完全にマッチングするために実行する必要がある文字変更(挿入、削除、置換)の数です。この例では、最小距離は0、最大距離は2になります。これにより、firstnameカラムの完全にマッチングするエントリー、または最大2文字の変更があるエントリーがすべて出力されます。