重複するペアを識別するためのグルーピングキャンペーンの追加 - Cloud

Talend Cloud Data Stewardshipの例

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Stewardship
Content
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > タスク管理
Last publication date
2024-02-09

[Grouping] (グルーピング)キャンペーンは、レコードのペアまたはグループで選択できるアービトレーションのリストを定義します。データスチュワードによるレコードグループの選択の結果がグルーピングタスクとなります。

このキャンペーンの一般的なユースケースは、Sparkの機械学習を使用し、非常に大量のデータを照合するコンテキストで、重複が疑われるレコードのペアにラベルを付ける、というものです。キャンペーンのもう1つのユースケースとしては、データスチュワードが重複レコードをマスターレコードにマージするマージングキャンペーンを実行する前に重複している可能性のあるグループを特定する、というものがあります。

この例では、[Grouping] (グルーピング)キャンペーンをSparkの機械学習のプロセスで使用しています。10の異なったソースから来るシカゴの幼児教育センターの顧客リストから抽出されるサンプルデータで重複レコードを識別します。データ照合のこの手順はtMatchPairingコンポーネントを使用した、代理店リストで疑われる重複レコードの計算処理後に表示されます。

キャンペーン所有者がキャンペーンを作成すると、データスチュワードはサンプルデータを確認し、レコードのペアが重複しているかどうかを判断する必要があります。

始める前に

  • 管理者がスチュワードシップユーザーを作成し、Talend Management Consoleでロールを割り当てていること。ユーザーの管理の詳細は、ユーザーを管理をご覧ください。

  • キャンペーン所有者のロールがTalend Management Consoleに割り当てられているか、データモデルとキャンペーンを追加および管理する権限を持つロールが割り当てられています。

  • ユーザーがキャンペーンの所有者としてTalend Cloud Data Stewardshipにアクセスしていること。