レコードのペア間の関係を決定するグルーピングタスクを処理 - Cloud

Talend Cloud Data Stewardshipの例

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Stewardship
Content
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > タスク管理
Last publication date
2024-04-16
グルーピングタスクは、複数のレコードの関係を決定する目的で使用します。選択内容を検証したら、ワークフローで定義された2番目の状態にタスクを移行します。

手順

  1. [Tasks] (タスク)ページで、このサンプルのキャンペーン名Site deduplicationをクリックして、割り当てられたタスクのリストを開きます。
    [Site deduplication]キャンペーンの概要。

    幼児教育センターのリストを使い、重複が疑われるペアが実際に重複しているかどうかを確認する質問に答える必要があります。レコードにラベルを付けて選択内容を検証すると、Talendジョブによってキャンペーンからデータが取得され、Spark上のデータと一致するコンテキストで使用されます。
  2. タスクを1つ選択するか、Ctrl / Shiftキーを使って複数のタスクを選択し、データペア間の関係付けについて[Yes] (はい)[No] (いいえ)[Not Sure] (わからない)のいずれかをクリックします。
    タスクに付けられる緑色のタグにより、決定が実行されたことが示され、選択内容が[Arbitration] (アービトレーション)カラムに表示されます。
  3. ページ右上の[Validate Choices] (選択項目を検証)をクリックして、タスクに対して行った選択を検証します。

タスクの結果

選択内容が設定され、データレコードが解決され、検証されて、リストから移動します。

次のタスク

Talendジョブを使用して、Site deduplicationキャンペーンでラベルが付けられたデータを分析し、一致するモデルを生成します。

詳細は、機械学習シナリオとの一致で、グルーピングキャンペーンから一致モデルを生成するジョブを参照してください。