サバイバーシップ機能を使用して2つのレコードをマージし、マスターレコードを作成する - Cloud - 8.0

Talendツールを使ってデータマッチング

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
Last publication date
2024-02-06

このシナリオはTalend Data Management PlatformTalend Big Data PlatformTalend Real-Time Big Data PlatformTalend MDM PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

このシナリオでは、T-Swooshアルゴリズムを使用して顧客名に重複を見つける基本的なジョブについて説明します。マッチングメソッドおよびサバイバーシップメソッドを使用してfirst_nameカラム内の値を比較し、類似するレコードをグルーピングし、サバイバーシップルールに従って2つの類似するレコードをマージすることで、各グループ内のエンティティの単一表記を作成します。

これらのマスターレコードは、入力データ内に存在しない新しいレコードです。

ジョブ内にT-Swooshアルゴリズムを使用し、複数のマッチングパスを使用できます。各パスは各グループに生き残ったマスターを、2番目のパスに元のレコードを提供します。ただし、中間マスターレコードは出力フローから削除されます。最後のマスターレコードと元のレコードのみが最後に保管されます。

このジョブでは以下のようになります:

  • tFileInputDelimitedコンポーネントは、処理する顧客レコードを提供します。

  • tMatchGroupコンポーネントは、マッチングメソッドおよびサバイバーシップメソッドを使用してデータを処理します。

  • tLogRowコンポーネントは、マッチング結果とサバイバーシップの結果を示します。