レコードの重複除去を行うマージングタスクの処理 - Cloud

Talend Cloud Data Stewardshipの例

Version
Cloud
Language
日本語 (日本)
Product
Talend Cloud
Module
Talend Data Stewardship
Content
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > タスク管理

マージングタスクの目的は、複数の潜在的な重複を1つのレコード(マスターレコード)にマージすることです。潜在的な重複は、同じソースに由来する場合もありますが(データ重複除去)、異なるソースに由来する場合もあります(データの照合)。

マージングキャンペーンでは、マスターフィールドの値のみを変更できますが、ソースフィールドの値は変更できません。

データ値をマージし、変更の検証すると、タスクはワークフローで定義されている2番目の状態に移ります。キャンペーンの作成時に定義されたワークフローにより、どの状態がどのデータスチュワードで使用可能かが決まります。ただし、少なくとも1つの無効な値が含まれている限り、タスクを検証したり、準備完了としてマークしたりすることはできません。

このタスクについて

顧客の重複レコードは同じソース(エンタープライズCRM)に由来していますが、Talend Cloud Data Stewardshipでは、キャンペーン作成時に定義したサバイバーシップルールに基づくマスターレコードの作成で使用する、照合レコードの属性が最初に決定されます。ただし、レコード属性ごとにサバイバーシップルールを手動で変更するか、まったく新しい値を入力して、最も正確かつ信頼性の高いマスターレコードを完成させる必要があります。

手順

  1. Tasks (タスク)ページで、このサンプルのキャンペーン名CRM Data Deduplicationをクリックして、割り当てられたタスクのリストを開きます。
  2. カラムまたは右側のパネルに表示されているCharts(チャート)またはPattern(パターン)ビューのカラム上部のクオリティバーを使用して、作業対象データをフィルタリングします。
  3. 左上の下向き矢印をクリックして、リストのすべてのタスクを展開するか、特定のタスクの下向き矢印をクリックして展開します。
  4. サバイバーシップルールを設定して、顧客レコードから属性を選択し、マスターレコードを作成します。いくつかのアプローチが考えられます.
    • 複数のレコードの1つの属性に対して、サバイバーシップルールを手動で設定します。

      1. カラム見出し、たとえばFirst_Nameをクリックし、右側のパネルでSurvivorship (サバイバーシップ)セクションを参照します。
      2. [Apply survivorship rule] (サバイバーシップルールの適用)をクリックし、[Rule] (ルール)リストから、すべての顧客レコードの名前属性に適用するサバイバーシップルールとしてMost commonを選択します。

        [Merging] (マージング)キャンペーンで重複データのソースが定義済みである場合、ソース名はリストに含まれており、カラム値に適用するサバイバーシップルールとして選択できます。

      3. Null値を含む名前の値すべてにルールを適用する場合は、[Avoid null values] (null値を避ける)チェックボックスをオフにします。それ以外の場合はオンのままにしておきます。
      4. [SUBMIT] (送信)をクリックして、最も共通する名前の値を選択し、タスクのマスターレコードに追加します。
    • 1つまたは複数のゴールデンレコードの属性すべてに対して、サバイバーシップルールを手動で設定します。

      1. ルールを設定するタスクを選択し、右側のパネルの[TASK] (タスク)の下にある[Apply survivorship rule] (サバイバーシップルールの適用)をクリックします。
      2. [Selection] (選択)リストから[Selected tasks] (選択済みタスク)をクリックします。

        ルールをすべてのタスクに適用することも、(リストにフィルターが定義済みである場合は)フィルタリングされたタスクのみに適用することもできます。

      3. [Rule] (ルール)リストから、たとえば、選択したタスクグループにMost trustedを適用する処理を選択します。
      4. Null値を含む値すべてにルールを適用する場合は、[Avoid null values] (null値を避ける)チェックボックスをオフにします。それ以外の場合はオンのままにしておきます。
      5. 選択したゴールデンレコードに最高スコアの名前の値を追加するには、[SUBMIT]をクリックします。
    • レコードの1つまたは複数の属性に対してサバイバーシップルールを手動で設定する: タスクのマスターレコード内の属性をポイントし、表示されるアイコンから、適用するサバイバーシップルールを選択します。

      • : 重複の中で最初の有効な属性値を選択します。「先頭」はタスク作成時のレコードの順番によって定義されます。

      • : 重複の中で最も共通する属性値を選択します。

      • : 重複の中で最も直近の属性値を選択します。

      • : 異なるソースからの重複の中で最も信頼されている属性値を選択します。

        選択した属性にルールが適用されない場合、アイコンはグレー表示されます。この例では、顧客データが1つのソース(CRM)に由来するため、最も信頼される属性のアイコンは機能していません。

    • 複数のレコードの1つの属性に対して、サバイバーシップルールを手動で設定します。

      1. カラム見出し、たとえばFirst_Nameをクリックし、右側のパネルでSurvivorship (サバイバーシップ)セクションを参照します。
      2. ボタンをクリックし、Survivorship rule (サバイバーシップルール)リストから、すべての顧客レコードの名前属性に適用するサバイバーシップルールとしてMost common (最も共通)を選択します。
      3. [Submit] (送信)をクリックして最も一般的な名前の値を選択し、タスクのマスターレコードに追加します。
    • 指定したソース属性の値をマスターレコードの値として選択します: ソース属性をポイントし、上向き矢印をクリックしてマスターレコードで選択した値を設定します。
  5. オプションとして、Emailカラムのメールリンクをクリックして新しいウィンドウを開き、顧客データレコード内の情報に関して必要な検証について、顧客にメールを送信します。
    注: メールアドレスがハイパーリンクとして表示されるのは、キャンペーンのデータモデルを定義する時にEmailカラムのセマンティックタイプをMailTo URLに設定した場合に限られます。
  6. 上記の手順を繰り返して、レコードを結合し、割り当てられたすべてのタスクのマスターレコードを作成します。
    特定のカラムの値を固定する必要がある場合は、右側のパネルに表示されている機能を使って一括変換できます。
  7. 変更したデータレコードの横にあるアイコンをクリックして、タスクの検証準備ができたことを示します。
    ロックアイコンに赤色の背景色が付いている場合は、検証準備完了としてマークする前にタスクの無効な値を修正する必要があります。

    レコードの背景が緑で表示され、ロックアイコンは自動的に次のレコードに移動します。検証準備済みのレコードは再編集できますが、タスクの背景色はダークグレーの初期状態に戻ります。タスクを検証準備完了としてマークするには、カギのアイコンをもう一度クリックする必要があります。

  8. ページ右上の[Validate] (検証)をクリックして、レコードに対して行った変更を検証します。
    マスターレコードが作成され、検証されたレコードはリストから移動され、ワークフローの次のステップに移行して、別のデータスチュワードによって承認される必要があります。この例では、Account Manager (アカウント管理者)ロールを付与されているデータスチュワードのリストに移動されます。
  9. データスチュワードはAccount Manaager (アカウント管理者)ロールを使用して、検証するタスクにアクセスし、タスクの選択内容を承認するか却下するかを決定します。

タスクの結果

承認されたタスクはワークフロー内の[Resolved] (解決済み)状態に移ります。リジェクトされたタスクは、ワークフローの最初のステップに移行され、新規としてマークされます。