コンポーネントの設定 - 7.3

Fuzzy matching

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント

手順

  1. tFileInputDelimitedをダブルクリックして[Basic settings] (基本設定)ビューを開き、プロパティを定義します。
  2. [File name] (ファイル名)の横の3ドットのボタンをクリックし、入力データを保持するファイルを参照します。
  3. 必要に応じて、ヘッダーフッター、および制限を設定します。
    このシナリオでは、[Header] (ヘッダー)を1に設定します。フッターと処理された行数の制限は設定されていません。
  4. [Edit schema] (スキーマを編集)をクリックして、ソース区切りファイルのデータ構造を記述できるダイアログボックスを開きます。
    このシナリオでは、ソーススキーマは、IDStatusFirstNameEmailCityInitial、およびZipCodeの各カラムで構成されます。
  5. tFuzzyUniqRowをダブルクリックして[Basic settings] (基本設定)ビューを表示し、プロパティを定義します。
  6. [Key Attribute] (キー属性)カラムで、定義されている一致メソッド、名前Eメール都市郵便番号を使用してチェックするカラムの横にあるチェックボックスをこのサンプルで選択します。
  7. [Matching type ] (一致するタイプ)カラムで、選択した各カラムで使用する一致方法を設定します。
    このサンプルでは、Leveshtein名前Eメール郵便番号カラムの一致方法として使用され、[Double Metaphone] (二重メタフォン)都市カラムの一致方法として使用されます。
    次に、Levenshteinメソッドの最小距離と最大距離を設定します。この方法では、距離は、エントリが参照と完全に一致するために実行する必要がある文字変更(挿入、削除、置換)の数です。この例では、最小の距離は0、最大の距離は2になります。これにより、FirstNameEmail、およびZipCodeカラムの完全に一致するエントリ、または最大2文字の変更があるエントリがすべて出力されます。この一致方法は、入力データの音声の不一致に基づいているため、[Double Metaphone] (二重メタフォン)に設定する最小距離も最大距離もありません。
  8. 最初のtFileOutputExcelをダブルクリックして[Basic settings] (基本設定)ビューを表示し、プロパティを定義します。
  9. 宛先のファイル名とシート名を設定し、[Include Header] (ヘッダーを含める)チェックボックスをオンにします。
  10. 2番目のtFileOutputExcelについても同じ操作を行います。