このシナリオは、Talend Data Fabricを備えたサブスクリプションベースの ビッグデータ関連Talend Platform製品のみ適用されます。
Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。
Sparkとの一致で使用される2つのワークフローについては、Sparkのマッチングをご覧ください。
Sparkのマッチングで使用する2つのワークフローの詳細は、Talend Help Center(https://help.talend.com)のドキュメンテーションをご覧ください。
このユースケースでは以下のコンポーネントが使用されます:
-
tFileInputDelimitedコンポーネント。tMatchPairingによって生成される入力の疑わしいペアを読み取ります。
-
tMatchPredictコンポーネント。疑わしいレコードを自動的にラベル付けし、コンポーネントプロパティのラベルセットにマッチする疑わしいレコードをグルーピングします。
-
tFileOutputDelimitedコンポーネント。サスペクトレコードに作成された、ラベル付け済みの重複レコードとグループのうち、tMatchPredictプロパティ内のラベルセットとマッチングするものを出力します。