重複するペアを識別するためのグループ化キャンペーンを追加 - Cloud

Talend Cloud Data Stewardshipの例

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Data Stewardship
task
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > タスク管理

Grouping (グルーピング)キャンペーンは、レコードのペアまたはグループで選択できるアービトレーションのリストを定義します。データスチュワードによるレコードグループの選択の結果がグルーピングタスクとなります。

このキャンペーンの一般的なユースケースは、Sparkの機械学習を使用し、非常に大量のデータを照合するコンテキストで、重複が疑われるレコードのペアにラベルを付ける、というものです。キャンペーンのもう1つのユースケースとしては、データスチュワードが重複レコードをマスターレコードにマージするマージングキャンペーンを実行する前に重複している可能性のあるグループを特定する、というものがあります。

この例では、グルーピングキャンペーンをSparkの機械学習のプロセスで使用しています。10の異なったソースから来るシカゴの幼児教育センターの顧客リストから抽出されるサンプルデータで重複レコードを識別します。データ照合のこの手順はtMatchPairingコンポーネントを使用した、代理店リストで疑われる重複レコードの計算処理後に表示されます。

キャンペーン所有者がキャンペーンを作成すると、データスチュワードはサンプルデータを確認し、レコードのペアが重複しているかどうかを判断する必要があります。

始める前に

  • 管理者がスチュワードシップユーザーを作成し、Talend Cloud Management Consoleでロールを割り当てていること。ユーザーの管理の詳細は、Talend Cloud Management Consoleユーザーガイドを参照してください。

  • キャンペーン所有者のロールがTalend Cloud Management Consoleに割り当てられているか、データモデルとキャンペーンを追加および管理する権限を持つロールが割り当てられています。

  • ユーザーがキャンペーンの所有者としてTalend Cloud Data Stewardshipにアクセスしていること。