コンポーネントの設定 - 7.3

Fuzzy matching

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント

手順

  1. 最初のtFileInputDelimited[Basic settings] (基本設定)ビューで定義します。解析する入力ファイルをシステムで参照します。
  2. コンポーネントのスキーマを定義します。このサンプルでは、入力スキーマには[Firstname] (名)[gender] (性別)の2つのカラムがあります。
  3. 同様に、2番目のtFileInputDelimitedコンポーネントを定義します。
    警告:

    ルックアップフローのスキーマで参照列がキーカラムとして設定されていることを確認します。

  4. tFuzzyMatchコンポーネントをダブルクリックして、その[Basic settings] (基本設定)ビューを開き、そのスキーマを定義します。
    メインフローを参照に対してチェックするには、[Schema] (スキーマ)[Main] (メイン)入力フロースキーマと一致する必要があります。
    [Value] (値)[Matching] (一致)の2つのカラムが出力スキーマに追加されていることにご注意ください。これらは標準一致情報であり、読み取り専用です。
  5. 受信データの確認に使用する方法を選択します。このシナリオでは、Levenshteinは使用する[Matching type ] (一致するタイプ)です。
  6. 次に距離を設定します。この方法では、距離は、エントリが参照と完全に一致するために実行する必要がある文字変更(挿入、削除、置換)の数です。
    このユースケースでは、最小距離と最大距離の両方を0に設定します。これによって正確な一致のみが出力されます。
  7. また、[Case sensitive] (大文字と小文字を区別)チェックボックスをオフにします。
  8. 一致するカラムと参照カラムが正しく選択されていることを確認します。
  9. 他のパラメーターはデフォルトのままにします。