2つのカラムであいまいマッチングを行って、完全マッチング、マッチング候補、マッチングしない値を出力 - Cloud - 8.0

Fuzzy matching

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
Last publication date
2023-09-07
Deprecated: 7.3の一般公開リリース以降、tBlockedFuzzyJoinコンポーネントは非推奨になっています。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

このシナリオは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

このシナリオでは、次を目的とする6コンポーネントジョブについて説明します:

  • 参照入力ファイルにある完全に同じ値を含むエントリーに対して、grpカラムで実行されている各グループ数をマッチング。

  • 入力ファイルのfirstnameカラム内のエントリー間の編集距離を、参照入力ファイル内の同エントリーに基づいてチェック。

これら2つのマッチングタイプの出力は、3つの出力ファイルに書き込まれます: 最初のファイルにはマッチングの値、2番目のファイルにはマッチング候補の値、3番目のファイルにはルックアップファイル内にマッチングがない値。

このシナリオでは、メインおよび参照入力スキーマがリポジトリーに保存済みであることが前提です。リポジトリーにスキーマメタデータを保管する方法は、Studioでメタデータを管理をご覧ください。

メイン入力ファイルには、[grp] (グループ)[gender] (性別)[firstname] (名)、および[count] (件数)の4つのカラムが含まれています。この入力ファイル内のデータには、重複、ファーストネームのスペルの相違や間違い、同一顧客に異なる情報など、問題があります。