Doing a fuzzy match on two columns and outputting the match, possible match and non match values (deprecated) - 7.3

Fuzzy matching

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント

このシナリオは、Talend Data Management PlatformTalend Big Data PlatformTalend Real Time Big Data PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオでは、次を目的とする6コンポーネントジョブについて説明します。

  • matching each processed group number in the grp column against the entries that have exactly the same values in the reference input file,

  • 入力ファイルのfirstnameカラム内のエントリ間の編集距離を、参照入力ファイル内の同エントリに基づいてチェックする。

これら2つのマッチングタイプの出力は、3つの出力ファイルに書き込まれます: 最初のファイルには一致の値、2番目のファイルには一致候補の値、3番目のファイルにはルックアップファイル内に一致がない値。

このシナリオでは、メインおよび参照入力スキーマがリポジトリーに保存済みであることが前提になっています。リポジトリーにスキーマメタデータを保管する方法の詳細は、『 Talend Studioユーザーガイド』を参照してください。

メイン入力ファイルには、[grp] (グループ)[gender] (性別)[firstname] (名)、および[count] (件数)の4つのカラムが含まれています。この入力ファイル内のデータには、重複、ファーストネームのスペルの相違や間違い、同一顧客に異なる情報など、問題があります。