Q-gramとLevenshteinアルゴリズムを使用したエントリーのマッチング - Cloud - 8.0

Talendツールを使ってデータマッチング

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
Last publication date
2024-02-06

このシナリオはTalend Data Management PlatformTalend Big Data PlatformTalend Real-Time Big Data PlatformTalend MDM PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

このシナリオでは、VSRアルゴリズムをベースとするマッチングルールを使用するジョブについて説明します。ジョブの目的は次のとおりです。

  • 長さqのgramをいくつか作成するために、参照入力ファイル内のエントリーに基づいて文字列を長さq (q=3)の文字ブロックに分割することで、nameカラム内のエントリーのマッチングを行う。マッチング結果は、q-gramマッチに対して取り得るq-gramの数となります。

  • 入力ファイルのemailカラム内のエントリー間の編集距離を、参照入力ファイル内の同エントリーに基づいてチェックする。

これら2つのマッチングタイプの出力は、3つの出力ファイルに書き込まれます: 最初のファイルにはマッチングの値、2番目のファイルにはマッチング候補の値、3番目のファイルにはルックアップファイル内にマッチングがない値。

このシナリオでは、メインおよび参照入力スキーマがリポジトリーに保存済みであることが前提です。リポジトリーにスキーマメタデータを保管する方法は、Talend Studioでメタデータを管理をご覧ください。

メイン入力テーブルには次の7つのカラムが含まれています: codenameaddresszipcodecityemailcol7nameカラムとemailカラムのファジーマッチを含めようとしています。