コンポーネントの設定 - Cloud - 8.0

Fuzzy matching

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
Last publication date
2023-09-07

手順

  1. tFileInputDelimitedをダブルクリックして[Basic settings] (基本設定)ビューを開き、プロパティを定義します。
  2. [File name] (ファイル名)の横にある[...]ボタンをクリックし、入力データを保持するファイルを参照します。
  3. 必要に応じて、ヘッダーフッター、および制限を設定します。
    このシナリオでは、[Header] (ヘッダー)を1に設定します。フッターと処理された行数の制限は設定されていません。
  4. [Edit schema] (スキーマを編集)をクリックして、ソース区切りファイルのデータ構造を記述できるダイアログボックスを開きます。
    このシナリオでは、ソーススキーマは、IDStatusFirstNameEmailCityInitial、およびZipCodeの各カラムで構成されます。
  5. tFuzzyUniqRowをダブルクリックして[Basic settings] (基本設定)ビューを表示し、プロパティを定義します。
  6. [Key Attribute] (キー属性)カラムで、定義されているマッチングメソッド、名前Eメール都市郵便番号を使用してチェックするカラムの横にあるチェックボックスをこのサンプルで選択します。
  7. [Matching type ] (マッチングタイプ)カラムで、選択した各カラムで使用するマッチング方法を設定します。
    この例では、Leveshtein名前Eメール郵便番号カラムのマッチング方法として使用され、[Double Metaphone] (二重メタフォン)都市カラムのマッチング方法として使用されます。
    次に、Levenshteinメソッドの最小距離と最大距離を設定します。この方法では、距離は、エントリーが参照と完全にマッチングするために実行する必要がある文字変更(挿入、削除、置換)の数です。この例では、最小距離は0、最大距離は2になります。これにより、FirstNameカラム、Emailカラム、ZipCodeカラムの完全にマッチングするエントリー、または最大2文字の変更があるエントリーがすべて出力されます。このマッチング方法は、入力データの音声の不一致に基づいているため、[Double Metaphone] (二重メタフォン)に設定する最小距離も最大距離もありません。
  8. 最初のtFileOutputExcelをダブルクリックして[Basic settings] (基本設定)ビューを表示し、プロパティを定義します。
  9. 宛先のファイル名とシート名を設定し、[Include Header] (ヘッダーを含める)チェックボックスをオンにします。
  10. 2番目のtFileOutputExcelについても同じ操作を行います。