重複するペアを識別するためのグループ化キャンペーンの追加 - 7.2

Talend Data Stewardshipの例

EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Data Stewardship
task
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > タスク管理

Grouping (グルーピング)キャンペーンは、レコードのペアまたはグループで選択できるアービトレーションのリストを定義します。データスチュワードによるレコードグループの選択の結果がグルーピングタスクとなります。

このキャンペーンの一般的なユースケースは、Sparkの機械学習を使用し、非常に大量のデータを照合するコンテキストで、重複が疑われるレコードのペアにラベルを付ける、というものです。キャンペーンのもう1つのユースケースとしては、データスチュワードが重複レコードをマスターレコードにマージするマージングキャンペーンを実行する前に重複している可能性のあるグループを特定する、というものがあります。

この例では、グルーピングキャンペーンをSparkの機械学習のプロセスで使用しています。10の異なったソースから来るシカゴの幼児教育センターの顧客リストから抽出されるサンプルデータで重複レコードを識別します。データ照合のこの手順はtMatchPairingコンポーネントを使用した、代理店リストで疑われる重複レコードの計算処理後に表示されます。

キャンペーン所有者がキャンペーンを作成すると、データスチュワードはサンプルデータを確認し、レコードのペアが重複しているかどうかを判断する必要があります。

始める前に

  • 管理者がスチュワードシップユーザーを作成し、Talend Administration Centerでロールを割り当てていること。ユーザーの作成の詳細は、Talend Data Stewardshipユーザーガイドを参照してください。

  • Talend Administration Centerには、キャンペーン所有者のロールが割り当てられいること。

  • ユーザーがキャンペーンの所有者としてTalend Data Stewardshipにアクセスしていること。