tFuzzyJoinコンポーネントを設定 - 7.3

Fuzzy matching

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント

手順

  1. tFuzzyJoinをダブルクリックして[Basic settings] (基本設定)ビューを表示し、プロパティを定義します。
  2. [Edit schema] (スキーマを編集)ボタンをクリックして、入力ファイルのデータストラクチャーを表示するダイアログボックスを開いた後に、出力コンポーネントに渡すデータを定義します。このシナリオでは、idClientEmailという2つのカラムです。
  3. [OK]をクリックして、ダイアログボックスを閉じます。
  4. tFuzzyJoin[Basic settings] (基本設定)ビューの[Key definition] (キー定義)エリアで、[+]ボタンをクリックして2つのカラムをリストに追加し、次に、ファジーマッチングを実行する入力カラムと出力カラムを[Input key attribute] (入力キー属性)リストと[Lookup key attribute] (ルックアップキー属性)リストからそれぞれ選択します。この例ではそれぞれ、IdClientEmailです。
  5. [Matching type] (マッチングタイプ)カラムの1番目のセルをクリックし、リストから、参照データに基づいて入力データをチェックするために使用するメソッドを選択します。このシナリオでは、Levenshteinは使用する[Matching type] (一致するタイプ)です。
  6. 次に、最小距離と最大距離を設定します。この方法では、距離は、エントリが参照と完全に一致するために実行する必要がある文字変更(挿入、削除、置換)の数です。この例では、最小の距離は0、最大の距離は2になります。これにより、IdClientの完全に一致するエントリ、または最大2文字の変更があるエントリがすべて出力されます。
    注:

    You can create and store context variables for the minimum and maximum distances in order to start from a low max number to match rows and go up to higher max number to match more possible rows.[Ctrl+Space]を押して、変数リストにアクセスして、これらの新しいコンテキスト変数を選択できます。コンテキスト変数の詳細は、『 Talend Studioユーザーガイド』を参照してください。

  7. チェックされる2番目のカラムのマッチングタイプを設定します(この例ではMetaphone)。There is no minimum nor maximum distance to set because this matching method is based on phonetic discrepancies between the input main and reference data.
  8. [Inner join (with reject output)] (内部結合(リジェクト出力付き))チェックボックスをオンにして、出力の1つを内部結合リジェクトデータとして定義します。