手順
-
tFuzzyJoinをダブルクリックして[Basic settings] (基本設定)ビューを表示し、プロパティを定義します。
-
[Edit schema] (スキーマを編集)ボタンをクリックして、入力ファイルのデータストラクチャーを表示するダイアログボックスを開いた後に、出力コンポーネントに渡すデータを定義します。このシナリオでは、idClientとEmailという2つのカラムです。
- [OK]をクリックして、ダイアログボックスを閉じます。
- tFuzzyJoinの[Basic settings] (基本設定)ビューの[Key definition] (キー定義)エリアで、[+]ボタンをクリックして2つのカラムをリストに追加し、次に、ファジーマッチングを実行する入力カラムと出力カラムを[Input key attribute] (入力キー属性)リストと[Lookup key attribute] (ルックアップキー属性)リストからそれぞれ選択します。この例ではそれぞれ、IdClientとEmailです。
- [Matching type] (マッチングタイプ)カラムの1番目のセルをクリックし、リストから、参照データに基づいて入力データをチェックするために使用するメソッドを選択します。このシナリオでは、Levenshteinは使用する[Matching type] (マッチングタイプ)です。
-
次に、最小距離と最大距離を設定します。この方法では、距離は、エントリーが参照と完全にマッチングするために実行する必要がある文字変更(挿入、削除、置換)の数です。この例では、最小距離は0、最大距離は2になります。これにより、IdClientの完全にマッチングするエントリー、または最大2文字の変更があるエントリーがすべて出力されます。
注:
最小距離と最大距離のコンテクスト変数を作成および保管し、低い最大数から行とマッチングさせ、より高い最大数に増やして可能な行とさらにマッチングさせることができます。[Ctrl+Space]を押して、変数リストにアクセスして、これらの新しいコンテキスト変数を選択できます。コンテキスト変数の詳細は、コンテキストと変数を使用をご覧ください。
- チェックされる2番目のカラムのマッチングタイプを設定します(この例ではMetaphone)。このマッチング方法は、入力メインと参照データの音声の不一致に基づいているため、設定する最小距離も最大距離もありません。
- [Inner join (with reject output)] (内部結合(リジェクト出力付き))チェックボックスをオンにして、出力の1つを内部結合リジェクトデータとして定義します。