一致キーの作成 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

手順

  1. [Record linkage algorithm] (レコード連鎖アルゴリズム)セクションで[T-Swoosh]を選択します。
  2. [Match and Survivor] (一致およびサバイバー)セクションで、データレコードをマッチングする際に使用する条件を定義します。[+]ボタンをクリックし、新しいルールを追加して、次の条件を設定します。
    • [Match Key Name] (一致キー名):一致キーに使用する名前を入力します。

    • [Matching Function] (マッチング機能):ドロップダウンリストから実行するマッチングのタイプを選択します。外部のユーザー定義マッチングアルゴリズムを使用する場合は、[Custom] (カスタム)を選択します。

    • [Custom Matcher] (カスタムマッチャー):このアイテムは、必ず[Custom] (カスタム)マッチング機能と一緒に使用します。ユーザー定義アルゴリズムのJarファイルを探して選択します。

    • [Threshold] (スレッショルド): この値を上回ると2つの値が一致したとみなされる一致スコア(0~1)を指定します。

    • [Confidence Weight] (重み付け): 一致キーとして使用するカラムに対して数値(1~10)で重みを指定します。この値を使用して、マッチングを実行する際に特定のカラムの重要度を上げる、または下げることができます。

    • [Handle Null] (NULLの扱い): NULL値を含むデータレコードの処理方法を指定します。
      • [nullMatchNull]: 両方のレコードにNULL値が含まれる場合は、一致しているとみなされます。

      • [nullMatch None] (nullMatchなし): 片方のレコードにNULL値が含まれる場合は、一致しているとみなされません。

      • [nullMatch All] (nullMatchすべて): 片方のレコードにNULL値が含まれる場合は、一致しているとみなされます。

    • [Survivorship Function] (サバイバーシップ機能): ドロップダウンリストから2つの類似レコードをマージする方法を選択します。
      • [Concatenate] (連結): 最初のレコードの内容と2番目のレコードの内容を連結します。たとえば、BillとWilliamをマージしてBillWilliamにします。[Parameter] (パラメーター)フィールドで、値の区切りに使用する区切りを指定できます。

      • [Prefer True (for booleans)] (ブール値ではTrue優先): ソースレコードのすべてのブール値がFalseの場合を除き、マージされたレコードのブール値は常にTrueに設定されます。

      • [Prefer False (for booleans)] (ブール値ではFalse優先): ソースレコードのすべてのブール値がTrueの場合を除き、マージされたレコードのブール値は常にFalseに設定されます。

      • [Most common] (最も一般的): 各重複グループで最も頻度の高いフィールド値を検証します。

      • [Most recent or Most ancient] (最新または最古):前者は各重複グループで最新の日付の値を検証し、後者は最古の日付の値を検証します。当該の参照カラムは、 Dateタイプにする必要があります。

      • [Longest or Shortest] (最長または最短): 前者は各重複グループで最長のフィールド値を検証し、後者は最短のフィールド値を検証します。

      • [Largest or Smallest] (最大または最小): 前者は重複グループで最大の数値を検証し、後者は最小の数値を検証します。

        警告: 一致キーが数値タイプのときには、サバイバーシップ機能に[Largest] (最大)または[Smallest] (最小)を必ず選択して下さい。
    • [Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップ機能では、このアイテムを使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップ機能では、このアイテムを使用して、データの連結に使用するセパレーターを指定します。

  3. [Match threshold] (スレッショルドの一致)フィールドに、一致可能性のスレッショルドを入力します。

    一致の可能性がこの値を上回る場合、2つのデータレコードは一致します。

    [Confident match threshold] (信頼できる一致スレッショルド)フィールドで、現在の[Match threshold] (一致スレッショルド)1の間に数値を設定します。

  4. [Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションで、特定のカラムについてデータレコードを存続させる方法を定義します。[+]ボタンをクリックし、新しいルールを追加して、次の条件を設定します。
    • [Input Column] (入力カラム): サバイバーシップルールを適用するカラムを入力します。

    • [Survivorship Function] (サバイバーシップ機能): ドロップダウンリストから2つの類似レコードをマージする方法を選択します。

    • [Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップ機能では、このアイテムを使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップ機能では、このアイテムを使用して、データの連結に使用する区切りを指定します。

    [Match And Survivor] (一致およびサバイバー)セクションで一致キーのサバイバーシップ機能を指定し、[Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションでも、入力カラムとして一致キーのサバイバーシップ機能を指定した場合は、[Match And Survivor] (一致およびサバイバー)セクションで選択したサバイバーシップ機能がカラムに適用されます。

  5. [Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションでは、特定のデータ型のサバイブマッチの方法を定義します: BooleanDateNumberString
    1. [+]ボタンをクリックして、各データ型の他の新しい行を追加します。
    2. [Data Type] (データ型)カラムで、ドロップダウンリストから当該のデータ型を選択します。
    3. [Survivorship Function] (サバイバーシップ機能)で、ドロップダウンリストから2つの類似レコードをマージする方法を選択します。データ型によっては、選択できる内容が限られます。
      警告: 一致キーが数値タイプのときには、サバイバーシップ機能に[Largest] (最大)または[Smallest] (最小)を必ず選択して下さい。
    4. [Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップ機能では、このアイテムを使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップ機能では、このアイテムを使用して、データの連結に使用するセパレーターを指定します。

    [Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションでカラムのサバイバーシップ機能を指定し、[Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションでもカラムのデータ型のサバイバーシップ機能を指定した場合は、[Survivorship Rules For Columns] (カラムのサバイバーシップルール)で選択したサバイバーシップ機能がカラムに適用されます。

    動作を指定しないデータ型が1つでもあった場合は、デフォルトの動作([Most common] (最も一般的)なサバイバーシップ機能)が適用されます。すなわち、各重複グループで最も頻度の高いフィールド値が検証されます。

  6. 変更を保存します。