このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
このシナリオでは、T-Swooshアルゴリズムを使用して顧客名に重複を見つける基本的なジョブについて説明します。マッチングメソッドおよびサバイバーシップメソッドを使用してfirst_nameカラム内の値を比較し、類似するレコードをグルーピングし、サバイバーシップルールに従って2つの類似するレコードをマージすることで、各グループ内のエンティティの単一表記を作成します。
これらのマスターレコードは、入力データ内に存在しない新しいレコードです。
ジョブ内にT-Swooshアルゴリズムを使用し、複数のマッチングパスを使用できます。各パスは各グループに生き残ったマスターを、2番目のパスに元のレコードを提供します。ただし、中間マスターレコードは出力フローから削除されます。最後のマスターレコードと元のレコードのみが最後に保管されます。
このジョブでは以下のようになります:
-
tFileInputDelimitedコンポーネントは、処理する顧客レコードを提供します。
-
tMatchGroupコンポーネントは、マッチングメソッドおよびサバイバーシップメソッドを使用してデータを処理します。
-
tLogRowコンポーネントは、マッチング結果とサバイバーシップの結果を示します。