レコードのペア間の関係を決定するグルーピングタスクの処理 - 7.3

Talend Data Stewardshipの例

EnrichVersion
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Data Stewardship
task
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > タスク管理
グルーピングタスクは、複数のレコードの関係を決定する目的で使用します。選択内容を検証したら、ワークフローで定義された2番目の状態にタスクを移行します。

手順

  1. [TASKS] (タスク)ページで、このサンプルのキャンペーン名Site deduplicationをクリックして、割り当てられたタスクのリストを開きます。

    例え

    幼児教育センターのリストを使い、重複が疑われるペアが実際に重複しているかどうかを確認する質問に答える必要があります。レコードにラベルを付けて選択内容を検証すると、Talendジョブによってキャンペーンからデータが取得され、Spark上のデータと一致するコンテキストで使用されます。
  2. タスクを1つ選択するか、[Ctrl]/[Shift]キーを使用して複数のタスクを選択し、データペア間の関係付けについて[Yes] (はい)[No] (いいえ)または[Not Sure] (わからない)をクリックします。
    タスクに付けられる緑色のタグにより、決定が実行されたことが示され、選択内容がArbitration (アービトレーション)カラムに表示されます。
  3. ページ右上の[Validate Choices] (選択の検証)をクリックして、タスクに対して行った選択を検証します。

タスクの結果

選択内容が設定され、データレコードが解決され、検証されて、リストから移動します。

次のタスク

Talendジョブを使用して、Site deduplication (サイト重複除去)キャンペーンでラベルが付けられたデータを分析し、一致するモデルを生成します。

詳細は、機械学習シナリオとの一致で、グルーピングキャンペーンから一致モデルを生成するジョブを参照してください。