ファーストネーム内のLevenshtein距離1または2のチェック - Cloud - 8.0

Fuzzy matching

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
Last publication date
2023-09-07

このシナリオは、上記のシナリオに基づいています。tFuzzyMatchコンポーネントの最小距離と最大距離の設定のみが変更され、表示される出力が変更されます。

Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

手順

  1. tFuzzyMatch[Component] (コンポーネント)ビューで、最小距離を0から1に変更します。これは正確なマッチングを直ちに除外します(距離は0になります)。
  2. 最大距離も2に変更してください。最大2文字の不一致を示すすべてのマッチングするエントリーが出力されます。
    その他の変更は必要ありません。
  3. 複数の参照がメインフローエントリーとマッチングすることもあるので、[Matching item separator] (項目セパレータのマッチング)を定義します。
  4. 新しいジョブを保存し、[F6]を押して実行します。
    FirstName|Name||
    Brad|Los angeles||
    Jason|New York|2|Jon
    Margaret|||
    Kourtney|Seattle|1|Courtney
    Nicole|Saint-Louis||
    John|Denver|1|Jon
    編集距離が2に設定されているため、メインフローの一部のエントリーは複数の参照エントリーとマッチングします。

タスクの結果

次のシナリオで説明するように、メタフォンという別のメソッドを使用して、メインフローと参照間の距離を評価することもできます。