マスターレコードにルールと値を設定 - 7.3

Talend Data Stewardship入門ガイド

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Stewardship
Content
データガバナンス > キャンペーンの管理
データガバナンス > データモデルの管理
データクオリティとプレパレーション > タスク管理
データクオリティとプレパレーション > 重複データの削除
Last publication date
2024-03-04
クライアントの重複レコードが異なるソースに由来している場合、Talend Data Stewardshipでは、キャンペーン内に定義されたサバイバーシップルールに基づいてマスターレコードを作成するために使用する、一致レコードの属性が最初に決定されます。

このタスクについて

データスチュワードはタスクを確認して、レコード属性ごとにサバイバーシップルールを手動で変更するか、全く新しい値を入力して、最も正確かつ信頼性の高いマスターレコードを完成させます。

手順

  1. データスチュワードとしてログインします。
  2. [Tasks] (タスク)ページでキャンペーン名(この例ではReconciling client data)をクリックし、自分に割り当てられたタスクのリストを開きます。
    リストの上部にあるクオリティバーでは、各カラムのデータの品質がひと目で分かるように色分けしています。色をポイントすると、選択したカラムのデータ値の詳細が表示されます。
  3. クオリティバーの色をクリックして、作業するデータをフィルターし、色の表示に一致するタスクを表示します。
    オプション 説明
    カラムタイプに一致する有効なデータを表します。
    グレー 空のフィールドを表します。ただし、必須フィールドの値が空の場合、白ではなく赤としてマークされます。
    カラムタイプまたはデータモデルのパラメーターセットと一致しない無効なデータを表します。
  4. タスクリストの左上の下向き矢印をクリックしてすべてのタスクを展開するか、特定のタスクの下向き矢印をクリックして展開します。
  5. サバイバーシップルールを設定して、顧客レコードから属性を選択し、マスターレコードを作成します。いくつかのアプローチが考えられます:
    • 複数のレコードの1つの属性に対して、サバイバーシップルールを手動で設定します。

      1. カラム見出し、たとえばLast_Nameをクリックし、右パネルでSurvivorship (サバイバーシップ)セクションを参照します。
      2. Survivorship rule (サバイバーシップルール)リストを展開し、リストのすべてのタスクの名前属性に適用するサバイバーシップルールとしてMost common (最も共通)を選択します。
      3. Null値を含む名前の値すべてにルールを適用する場合は、[Avoid null values] (null値を避ける)チェックボックスをオフにします。それ以外の場合はオンのままにしておきます。
      4. [Submit] (送信)をクリックして、最も共通する名前の値を選択し、すべてのタスクのマスターレコードに追加します。
    • 1つまたは複数のゴールデンレコードの属性すべてに対して、サバイバーシップルールを手動で設定します。

      1. ルールを設定するタスクを選択し、右パネルの[Task] (タスク)の下にある[Apply survivorship rule] (サバイバーシップルールを適用)をクリックします。
      2. [Selection] (選択)リストから[Selected tasks] (選択済みタスク)をクリックします。

        ルールをすべてのタスクに適用することも、(リストにフィルターが定義済みである場合は)フィルタリングされたタスクのみに適用することもできます。

      3. [Rule] (ルール)リストから、たとえば、選択したタスクグループにMost trustedを適用する処理を選択します。

        [Merging] (マージング)キャンペーンで重複データのソースが定義済みである場合、ソース名はリストに含まれており、カラム値に適用するサバイバーシップルールとして選択できます。

      4. Null値を含む値すべてにルールを適用する場合は、[Avoid null values] (null値を避ける)チェックボックスをオフにします。それ以外の場合はオンのままにしておきます。
      5. 選択したゴールデンレコードに最高スコアの名前の値を追加するためには、[Submit] (送信)をクリックします。
    • レコードの1つまたは複数の属性に対してサバイバーシップルールを手動で設定する: タスクのマスターレコード内の属性をポイントし、表示されるアイコンから、適用するサバイバーシップルールを選択します。

      • : 重複の中で最初の有効な属性値を選択します。「先頭」はタスク作成時のレコードの順番によって定義されます。

      • : 重複の中で最も共通する属性値を選択します。

      • : 重複の中で最も直近の属性値を選択します。

      • : 重複の中で最も信頼されている属性値を選択します。

        選択したレコードにサバイバーシップルールが適用されない場合、サバイバーシップアイコンはグレー表示されます。

    • 指定したソース属性の値をマスターレコードの値として選択します: ソース属性をポイントし、上向き矢印をクリックしてマスターレコードで選択した値を設定します。
  6. オプションで、マスターレコードの値をダブルクリックし、どのソースにも存在しない任意の選択値を設定します。
  7. 変更したデータレコードの横にあるアイコンをクリックして、タスクの検証準備ができたことを示します。
    最初のフィールドは緑の背景でマークされ、タスクの完了の割合が計算され、右上に表示されます。

    検証準備済みのレコードは再編集できますが、タスクの背景色はダークグレーの初期状態に戻ります。タスクを検証準備完了としてマークするには、カギのアイコンをもう一度クリックする必要があります。

  8. ロックアイコンに赤色の背景色が付いている場合は、まずタスクの無効な値を修正してから、検証準備完了とマークできます。
  9. 上記の手順を繰り返して、割り当てられたすべてのタスクのマスターレコードを作成します。
  10. 右上の[Validate] (検証)をクリックして、変更内容を承認し、リストからタスクを移動させます。

タスクの結果

マスターレコードが作成され、検証されたレコードが、この例ではAccount validatorのロールが付与されているキャンペーン参加者のリストに移動されます。