メイン コンテンツをスキップする

2つのカラムであいまいマッチングを行って、完全マッチング、マッチング候補、マッチングしない値を出力

Availability-note非推奨
情報メモDeprecated: 7.3の一般公開リリース以降、tBlockedFuzzyJoinコンポーネントは非推奨になっています。

このシナリオはTalend Data Management PlatformTalend Big Data PlatformTalend Real-Time Big Data PlatformTalend MDM PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

このシナリオでは、次を目的とする6コンポーネントジョブについて説明します:

  • 参照入力ファイルにある完全に同じ値を含むエントリーに対して、grpカラムで実行されている各グループ数をマッチング。

  • 入力ファイルのfirstnameカラム内のエントリー間の編集距離を、参照入力ファイル内の同エントリーに基づいてチェック。

これら2つのマッチングタイプの出力は、3つの出力ファイルに書き込まれます: 最初のファイルにはマッチングの値、2番目のファイルにはマッチング候補の値、3番目のファイルにはルックアップファイル内にマッチングがない値。

このシナリオでは、メインおよび参照入力スキーマがリポジトリーに保存済みであることが前提です。リポジトリーにスキーマメタデータを保管する方法は、Talend Studioでメタデータを管理をご覧ください。

メイン入力ファイルには、[grp] (グループ)[gender] (性別)[firstname] (名)、および[count] (件数)の4つのカラムが含まれています。この入力ファイル内のデータには、重複、ファーストネームのスペルの相違や間違い、同一顧客に異なる情報など、問題があります。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。