メイン コンテンツをスキップする 補完的コンテンツへスキップ

マージングタスクを処理してレコードの重複を除去

マージングタスクの目的は、複数の潜在的な重複を1つのレコード(マスターレコード)にマージすることです。潜在的な重複は、同じソースに由来する場合もありますが(データ重複除去)、異なるソースに由来する場合もあります(データの照合)。

[Merging] (マージング)キャンペーンでは、マスターフィールドの値のみを変更できますが、ソースフィールドの値は変更できません。

データ値をマージし、変更の検証すると、タスクはワークフローで定義されている2番目の状態に移ります。キャンペーンの作成時に定義されたワークフローにより、どの状態がどのデータスチュワードで使用可能かが決まります。ただし、少なくとも1つの無効な値が含まれている限り、タスクを検証したり、準備完了としてマークしたりすることはできません。

このタスクについて

顧客の重複レコードは同じソース(エンタープライズCRM)に由来していますが、Talend Data Stewardshipでは、キャンペーン作成時に定義したサバイバーシップルールに基づくマスターレコードの作成で使用する、照合レコードの属性が最初に決定されます。ただし、レコード属性ごとにサバイバーシップルールを手動で変更するか、まったく新しい値を入力して、最も正確かつ信頼性の高いマスターレコードを完成させる必要があります。

手順

  1. [Tasks] (タスク)ページでこの例のキャンペーン名であるCRM Data Deduplicationをクリックし、割り当てられたタスクのリストを開きます。
  2. 各カラムの上部にあるクオリティバーを使い、右パネルにある[Charts] (チャート)ビューまたは[Pattern] (パターン)ビューで作業したいデータをフィルタリングします。
  3. 左上の下向き矢印をクリックして、リストのすべてのタスクを展開するか、特定のタスクの下向き矢印をクリックして展開します。
  4. サバイバーシップルールを設定して、顧客レコードから属性を選択し、マスターレコードを作成します。いくつかのアプローチが考えられます.
    • 複数のレコードの1つの属性に対して、サバイバーシップルールを手動で設定します。

      1. カラム見出し、たとえばFirst_Nameをクリックし、右パネルでSurvivorship (サバイバーシップ)セクションを参照します。
      2. [Apply survivorship rule] (サバイバーシップルールを適用)をクリックし、[Rule] (ルール)リストから、すべての顧客レコードの名前属性に適用するサバイバーシップルールとしてMost commonを選択します。

        [Merging] (マージング)キャンペーンで重複データのソースが定義済みである場合、ソース名はリストに含まれており、カラム値に適用するサバイバーシップルールとして選択できます。

      3. Null値を含む名前の値すべてにルールを適用する場合は、[Avoid null values] (null値を避ける)チェックボックスをオフにします。それ以外の場合は選択されたままにしておきます。
      4. [Submit] (送信)をクリックして最も一般的な名前の値を選択し、タスクのマスターレコードに追加します。
    • 1つまたは複数のゴールデンレコードの属性すべてに対して、サバイバーシップルールを手動で設定します。

      1. ルールを設定するタスクを選択し、右パネルの[Task] (タスク)の下にある[Apply survivorship rule] (サバイバーシップルールを適用)をクリックします。
      2. [Selection] (選択)リストから[Selected tasks] (選択済みタスク)をクリックします。

        ルールをすべてのタスクに適用することも、(リストにフィルターが定義済みである場合は)フィルタリングされたタスクのみに適用することもできます。

      3. [Rule] (ルール)リストから、たとえば、選択したタスクグループにMost trustedを適用する処理を選択します。
      4. Null値を含む値すべてにルールを適用する場合は、[Avoid null values] (null値を避ける)チェックボックスをオフにします。それ以外の場合はオンのままにしておきます。
      5. 選択したゴールデンレコードに最高スコアの名前の値を追加するためには、[Submit] (送信)をクリックします。
    • レコードの1つまたは複数の属性に対してサバイバーシップルールを手動で設定する: タスクのマスターレコード内の属性をポイントし、表示されるアイコンから、適用するサバイバーシップルールを選択します。

      • : 重複の中で最初の有効な属性値を選択します。「先頭」はタスク作成時のレコードの順番によって定義されます。

      • : 重複の中で最も共通する属性値を選択します。

      • : 重複の中で最も直近の属性値を選択します。

      • : 異なるソースからの重複の中で最も信頼されている属性値を選択します。

        選択した属性にルールが適用されない場合、アイコンはグレー表示されます。この例では、顧客データが1つのソース(CRM)に由来するため、最も信頼される属性のアイコンは機能していません。

    • 複数のレコードの1つの属性に対して、サバイバーシップルールを手動で設定します。

      1. カラム見出し、たとえばFirst_Nameをクリックし、右パネルでSurvivorship (サバイバーシップ)セクションを参照します。
      2. ボタンをクリックし、Survivorship rule (サバイバーシップルール)リストから、すべての顧客レコードの名前属性に適用するサバイバーシップルールとしてMost common (最も共通)を選択します。
      3. [Submit] (送信)をクリックして最も一般的な名前の値を選択し、タスクのマスターレコードに追加します。
    • 指定したソース属性の値をマスターレコードの値として選択します: ソース属性をポイントし、上向き矢印をクリックしてマスターレコードで選択した値を設定します。
  5. オプションとして、Emailカラムのメールリンクをクリックして新しいウィンドウを開き、顧客データレコード内の情報に関して必要な検証について、顧客にメールを送信します。
    情報メモ注: メールアドレスがハイパーリンクとして表示されるのは、キャンペーンのデータモデルを定義する時にEmailカラムのセマンティックタイプをMailTo URLに設定した場合に限られます。
  6. 上記の手順を繰り返して、レコードを結合し、割り当てられたすべてのタスクのマスターレコードを作成します。
    特定のカラムの値を固定する必要がある場合は、右パネルに表示されている機能を使って一括変換できます。
  7. 変更したデータレコードの横にあるアイコンをクリックして、タスクの検証準備ができたことを示します。
    ロックアイコンに赤色の背景色が付いている場合は、検証準備完了としてマークする前にタスクの無効な値を修正する必要があります。

    レコードの背景が緑で表示され、ロックアイコンは自動的に次のレコードに移動します。検証準備済みのレコードは再編集できますが、タスクの背景色はダークグレーの初期状態に戻ります。タスクを検証準備完了としてマークするには、カギのアイコンをもう一度クリックする必要があります。

  8. ページ右上の[Validate] (検証)をクリックして、レコードに対して行った変更を検証します。
    マスターレコードが作成され、検証されたレコードはリストから移動され、ワークフローの次のステップに移行して、別のデータスチュワードによって承認される必要があります。この例では、Account Manager (アカウント管理者)ロールを付与されているデータスチュワードのリストに移動されます。
  9. データスチュワードはAccount Manaager (アカウント管理者)ロールを使用して、検証するタスクにアクセスし、タスクの選択内容を承認するか却下するかを決定します。

タスクの結果

承認されたタスクはワークフロー内の[Resolved] (解決済み)状態に移ります。リジェクトされたタスクは、ワークフローの最初のステップに移行され、新規としてマークされます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。