tMatchPredictによってラベル付けされたサスペクトペアとtMatchPairingによって計算された一意な行からクリーンなデータセットを作成する
このシナリオは、サブスクリプションベースのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricにのみ適用されます。
この例では、以下の入力データの2つのソースを使用します:
-
tMatchPredictによって重複としてラベル付けされ、グルーピングされた疑わしいレコード。
疑わしいペアに指定のラベルを付ける方法のサンプルは、サスペクトペアに割り当て済みのラベルを付けるをご覧ください。
-
ユニーク行がtMatchPairingによって計算されます。
ソースデータからユニーク行を計算する方法のサンプルは、ソースデータの疑わしいペアと疑わしいサンプルを計算とサスペクトペアを計算し、サンプルをTalend Data Stewardshipに書き込むをご覧ください。
このユースケースでは以下の2つのサブジョブが使用されます:
-
最初のサブジョブでは、tMatchPredictによって重複のラベルが付けられ、グルーピングされたレコードがtRuleSurvivorshipによって処理され、各重複グループについて単一のレコードが残されます。
-
2番目のサブジョブでは、tUniteにより残ったレコードと一意な行がマージされ、クリーンで重複除去されたデータセットが作成され、tMatchIndexコンポーネントで使用されます。
出力ファイルにはクリーンで重複除去されたデータが含まれます。この参照データセットはtMatchIndexコンポーネントを使用して、ElasticSearchでインデックス化できます。
このページは役に立ちましたか?
このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。