マージングタスクを処理してレコードの重複を除去 - 8.0

Talend Data Stewardshipの例

Version
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Stewardship
Content
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > タスク管理
Last publication date
2024-04-15

マージングタスクの目的は、複数の潜在的な重複を1つのレコード(マスターレコード)にマージすることです。潜在的な重複は、同じソースに由来する場合もありますが(データ重複除去)、異なるソースに由来する場合もあります(データの照合)。

[Merging] (マージング)キャンペーンでは、マスターフィールドの値のみを変更できますが、ソースフィールドの値は変更できません。

データ値をマージし、変更の検証すると、タスクはワークフローで定義されている2番目の状態に移ります。キャンペーンの作成時に定義されたワークフローにより、どの状態がどのデータスチュワードで使用可能かが決まります。ただし、少なくとも1つの無効な値が含まれている限り、タスクを検証したり、準備完了としてマークしたりすることはできません。

このタスクについて

顧客の重複レコードは同じソース(エンタープライズCRM)に由来していますが、Talend Data Stewardshipでは、キャンペーン作成時に定義したサバイバーシップルールに基づくマスターレコードの作成で使用する、照合レコードの属性が最初に決定されます。ただし、レコード属性ごとにサバイバーシップルールを手動で変更するか、まったく新しい値を入力して、最も正確かつ信頼性の高いマスターレコードを完成させる必要があります。

手順

  1. [Tasks] (タスク)ページでこの例のキャンペーン名であるCRM Data Deduplicationをクリックし、割り当てられたタスクのリストを開きます。
  2. 各カラムの上部にあるクオリティバーを使い、右パネルにある[Charts] (チャート)ビューまたは[Pattern] (パターン)ビューで作業したいデータをフィルタリングします。
  3. 左上の下向き矢印をクリックして、リストのすべてのタスクを展開するか、特定のタスクの下向き矢印をクリックして展開します。
  4. サバイバーシップルールを設定して、顧客レコードから属性を選択し、マスターレコードを作成します。いくつかのアプローチが考えられます.
    • 複数のレコードの1つの属性に対して、サバイバーシップルールを手動で設定します。

      1. カラム見出し、たとえばFirst_Nameをクリックし、右パネルでSurvivorship (サバイバーシップ)セクションを参照します。
      2. [Apply survivorship rule] (サバイバーシップルールを適用)をクリックし、[Rule] (ルール)リストから、すべての顧客レコードの名前属性に適用するサバイバーシップルールとしてMost commonを選択します。

        [Merging] (マージング)キャンペーンで重複データのソースが定義済みである場合、ソース名はリストに含まれており、カラム値に適用するサバイバーシップルールとして選択できます。

      3. Null値を含む名前の値すべてにルールを適用する場合は、[Avoid null values] (null値を避ける)チェックボックスをオフにします。それ以外の場合は選択されたままにしておきます。
      4. [Submit] (送信)をクリックして最も一般的な名前の値を選択し、タスクのマスターレコードに追加します。
    • 1つまたは複数のゴールデンレコードの属性すべてに対して、サバイバーシップルールを手動で設定します。

      1. ルールを設定するタスクを選択し、右パネルの[Task] (タスク)の下にある[Apply survivorship rule] (サバイバーシップルールを適用)をクリックします。
      2. [Selection] (選択)リストから[Selected tasks] (選択済みタスク)をクリックします。

        ルールをすべてのタスクに適用することも、(リストにフィルターが定義済みである場合は)フィルタリングされたタスクのみに適用することもできます。

      3. [Rule] (ルール)リストから、たとえば、選択したタスクグループにMost trustedを適用する処理を選択します。
      4. Null値を含む値すべてにルールを適用する場合は、[Avoid null values] (null値を避ける)チェックボックスをオフにします。それ以外の場合はオンのままにしておきます。
      5. 選択したゴールデンレコードに最高スコアの名前の値を追加するためには、[Submit] (送信)をクリックします。
    • レコードの1つまたは複数の属性に対してサバイバーシップルールを手動で設定する: タスクのマスターレコード内の属性をポイントし、表示されるアイコンから、適用するサバイバーシップルールを選択します。

      • : 重複の中で最初の有効な属性値を選択します。「先頭」はタスク作成時のレコードの順番によって定義されます。

      • : 重複の中で最も共通する属性値を選択します。

      • : 重複の中で最も直近の属性値を選択します。

      • : 異なるソースからの重複の中で最も信頼されている属性値を選択します。

        選択した属性にルールが適用されない場合、アイコンはグレー表示されます。この例では、顧客データが1つのソース(CRM)に由来するため、最も信頼される属性のアイコンは機能していません。

    • 複数のレコードの1つの属性に対して、サバイバーシップルールを手動で設定します。

      1. カラム見出し、たとえばFirst_Nameをクリックし、右パネルでSurvivorship (サバイバーシップ)セクションを参照します。
      2. ボタンをクリックし、Survivorship rule (サバイバーシップルール)リストから、すべての顧客レコードの名前属性に適用するサバイバーシップルールとしてMost common (最も共通)を選択します。
      3. [Submit] (送信)をクリックして最も一般的な名前の値を選択し、タスクのマスターレコードに追加します。
    • 指定したソース属性の値をマスターレコードの値として選択します: ソース属性をポイントし、上向き矢印をクリックしてマスターレコードで選択した値を設定します。
  5. オプションとして、Emailカラムのメールリンクをクリックして新しいウィンドウを開き、顧客データレコード内の情報に関して必要な検証について、顧客にメールを送信します。
    注: メールアドレスがハイパーリンクとして表示されるのは、キャンペーンのデータモデルを定義する時にEmailカラムのセマンティックタイプをMailTo URLに設定した場合に限られます。
  6. 上記の手順を繰り返して、レコードを結合し、割り当てられたすべてのタスクのマスターレコードを作成します。
    特定のカラムの値を固定する必要がある場合は、右パネルに表示されている機能を使って一括変換できます。
  7. 変更したデータレコードの横にあるアイコンをクリックして、タスクの検証準備ができたことを示します。
    ロックアイコンに赤色の背景色が付いている場合は、検証準備完了としてマークする前にタスクの無効な値を修正する必要があります。

    レコードの背景が緑で表示され、ロックアイコンは自動的に次のレコードに移動します。検証準備済みのレコードは再編集できますが、タスクの背景色はダークグレーの初期状態に戻ります。タスクを検証準備完了としてマークするには、カギのアイコンをもう一度クリックする必要があります。

  8. ページ右上の[Validate] (検証)をクリックして、レコードに対して行った変更を検証します。
    マスターレコードが作成され、検証されたレコードはリストから移動され、ワークフローの次のステップに移行して、別のデータスチュワードによって承認される必要があります。この例では、Account Manager (アカウント管理者)ロールを付与されているデータスチュワードのリストに移動されます。
  9. データスチュワードはAccount Manaager (アカウント管理者)ロールを使用して、検証するタスクにアクセスし、タスクの選択内容を承認するか却下するかを決定します。

タスクの結果

承認されたタスクはワークフロー内の[Resolved] (解決済み)状態に移ります。リジェクトされたタスクは、ワークフローの最初のステップに移行され、新規としてマークされます。