2つのカラムであいまい一致を実行して完全一致、一致候補、一致しない値を出力(非推奨) - Cloud - 8.0

Fuzzy matching

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント

このシナリオは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオでは、次を目的とする6コンポーネントジョブについて説明します:

  • 参照入力ファイルにある完全に同じ値を含むエントリーに対して、grpカラムで実行されている各グループ数を一致。

  • 入力ファイルのfirstnameカラム内のエントリー間の編集距離を、参照入力ファイル内の同エントリーに基づいてチェック。

これら2つのマッチングタイプの出力は、3つの出力ファイルに書き込まれます: 最初のファイルには一致の値、2番目のファイルには一致候補の値、3番目のファイルにはルックアップファイル内に一致がない値。

このシナリオでは、メインおよび参照入力スキーマがリポジトリーに保存済みであることが前提になっています。リポジトリーにスキーマメタデータを保管する方法の詳細は、『 Talend Studioユーザーガイド』を参照してください。

メイン入力ファイルには、[grp] (グループ)[gender] (性別)[firstname] (名)、および[count] (件数)の4つのカラムが含まれています。この入力ファイル内のデータには、重複、ファーストネームのスペルの相違や間違い、同一顧客に異なる情報など、問題があります。