マッチングルールの定義 - 7.3

Talend Data Fabric Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Data Fabric
Module
Talend Studio
Content
ジョブデザインと開発

始める前に

  • [Match Rule Editor] (マッチングルールエディター)でマッチングルールのさまざまな特性を定義します。
  • [Match Definition Metadata] (一致定義メタデータ)セクションでは、マッチングルールを作成するとほとんどのフィールドが自動的に入力されます。どのメタデータも必要に応じて編集が可能で、ドロップダウンリストからdevelopmenttesting、またはproductionを選択して、[Status] (ステータス)を設定できます。

手順

  1. [Record linkage algorithm] (レコード連鎖アルゴリズム)セクションで[T-Swoosh]を選択します。[Simple VSR Matcher] (シンプルVSRマッチャー)は、必ずTalend Data Qualityと一緒に使用します。
  2. [Match and Survivor] (一致およびサバイバー)セクションで、データレコードをマッチングする際に使用する条件を定義します。[+]ボタンをクリックし、新しいルールを追加して、次の条件を設定します。
    • Match Key Name (マッチキー名): マッチキーの任意の名前を入力します。

    • Matching Function (マッチング関数): ドロップダウンリストから、実行するマッチングのタイプを選択します。外部のユーザー定義マッチングアルゴリズムを使用する場合は、[Custom] (カスタム)を選択します。

    • [Custom Matcher] (カスタムマッチャー):この項目は、必ず[Custom] (カスタム)マッチング関数と一緒に使用します。ユーザー定義アルゴリズムのJarファイルを参照して選択します。

    • Threshold (しきい値): 2つの値についてマッチスコア(0から1)を指定してどの値から上がマッチと見なされるか指定します。

    • Confidence Weight (信頼度の重み): マッチキーとして使用する列に数値の重み(1から10)を設定します。この値を使用すると、マッチングを実行する時に特定の列の重要度が高くなります。

    • Handle Null (Nullの処理): Null値を含むデータレコードの処理方法を指定します。
      • nullMatchNull: 両方のレコードにNull値が含まれている場合、マッチと見なします。

      • [nullMatch None] (nullMatchなし): 片方のレコードにNULL値が含まれる場合は、一致していると見なされません。

      • [nullMatch All] (nullMatchすべて): 片方のレコードにNULL値が含まれる場合は、一致していると見なされます。

    • Survivorship Function (サバイバーシップ関数): ドロップダウンリストから2つの類似するレコードをマージする方法を選択します。
      • Concatenate (連結): 最初のレコードの内容と2番目のレコードの内容を合わせて追加します。たとえば、BillとWilliamは結合されてBillWilliamとなります。[Parameter] (パラメーター)フィールドで、値の区切りに使用する区切りを指定できます。

      • Prefer True (Trueを優先: ブール値の場合): ソースレコードのすべてのブール値がFalseでない限り、結合されたレコードでは常にブール値をTrueに設定します。

      • [Prefer False (for booleans)] (ブール値ではFalse優先): ソースレコードのすべてのブール値がTrueの場合を除き、マージされたレコードのブール値は常にFalseに設定されます。

      • Most common (最も一般的): 重複グループの中で最も頻繁に出現するフィールド値を有効にします。

      • Most recent, Most ancient (最も新しい、最も古い): 重複グループの中で前者は最も古い日付を有効にし、後者は最も新しい日付を有効にします。関連する参照カラム[Date] (日付)タイプにする必要があります。

      • Longest, Shortest (最長、最短):重複グループの中で前者は最も長いフィールド値を有効にし、後者は最も短いフィールド値を有効にします。

      • Largest, Smallest (最大、最小): 重複グループの中で前者は最大の数値を有効にし、後者は最小の数値を有効にします。

        警告: マッチングキーが数値タイプの時は、サバイバーシップ関数に[Largest] (最大)または[Smallest] (最小)を必ず選択してください。
      • Most trusted source (最も信頼できるソース): 最も信頼できるとして定義されているソースに由来するデータを採用します。最も信頼できるデータソースは、[Parameter] (パラメーター)フィールドで設定されます。

    • [Reference column] (参照カラム): [Survivor Function] (サバイバー関数)[Most recent] (最新)または[Most ancient] (最古)に設定すると、この項目は参照カラムの選択に使用されます。
    • [Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップ関数では、この項目を使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップ関数では、この項目を使用して、データの連結に使用するセパレーターを指定します。

  3. [Match threshold] (しきい値の一致)フィールドに、一致可能性のしきい値を入力します。

    確率がこの値を超えると、2つのデータレコードは一致と見なされます。

    [Confident match threshold] (信頼できる一致しきい値)フィールドで、現在の[Match threshold] (一致しきい値)1の間に数値を設定します。

  4. [Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションで、特定のカラムについてデータレコードを存続させる方法を定義します。[+]ボタンをクリックし、新しいルールを追加して、次の条件を設定します。
    • [Input Column] (入力カラム): サバイバーシップルールを適用するカラムを入力します。

    • Survivorship Function (サバイバーシップ関数): ドロップダウンリストから2つの類似するレコードをマージする方法を選択します。

    • [Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップ関数では、この項目を使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップ関数では、この項目を使用して、データの連結に使用する区切りを指定します。

    [Match And Survivor] (一致およびサバイバー)セクションでマッチングキーのサバイバーシップ関数を指定し、[Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションでも、入力カラムとしてマッチングキーのサバイバーシップ関数を指定した場合は、[Match And Survivor] (一致およびサバイバー)セクションで選択したサバイバーシップ関数がカラムに適用されます。

  5. [Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションでは、特定のデータ型のサバイブマッチの方法を定義します: BooleanDateNumberString
    1. [+]ボタンをクリックして、各データ型の他の新しい行を追加します。
    2. [Data Type] (データ型)列で、ドロップダウンリストから当該のデータ型を選択します。
    3. [Survivorship Function] (サバイバーシップ関数)で、ドロップダウンリストから2つの類似レコードをマージする方法を選択します。データ型によっては、特定の選択肢のみが該当する場合があることにご注意ください。
      警告: マッチングキーが数値タイプの時は、サバイバーシップ関数に[Largest] (最大)または[Smallest] (最小)を必ず選択してください。
    4. [Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップ関数では、この項目を使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップ関数では、この項目を使用して、データの連結に使用するセパレーターを指定します。

    [Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションでカラムのサバイバーシップ関数を指定し、[Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションでもカラムのデータ型のサバイバーシップ関数を指定した場合は、[Survivorship Rules For Columns] (カラムのサバイバーシップルール)で選択したサバイバーシップ関数がカラムに適用されます。

    動作を指定しないデータ型が1つでもあった場合は、デフォルトの動作([Most common] (最も一般的)なサバイバーシップ関数)が適用されます。すなわち、各重複グループで最も頻度の高いフィールド値が検証されます。

  6. 変更を保存します。