一致キーの作成 - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

手順

  1. [Record linkage algorithm] (レコード連鎖アルゴリズム)セクションで[T-Swoosh]を選択します。
  2. [Match and Survivor] (一致およびサバイバー)セクションで、データレコードをマッチングする際に使用する条件を定義します。[+]ボタンをクリックし、新しいルールを追加して、次の条件を設定します。
    • Match Key Name (マッチキー名): マッチキーの任意の名前を入力します。

    • Matching Function (マッチング機能): ドロップダウンリストから、実行するマッチングのタイプを選択します。外部のユーザー定義マッチングアルゴリズムを使用する場合は、[Custom] (カスタム)を選択します。

    • [Custom Matcher] (カスタムマッチャー):このアイテムは、必ず[Custom] (カスタム)マッチング機能と一緒に使用します。ユーザー定義アルゴリズムのJarファイルを参照して選択します。

    • Threshold (しきい値): 2つの値についてマッチスコア(0から1)を指定してどの値から上がマッチとみなされるか指定します。

    • Confidence Weight (信頼度の重み): マッチキーとして使用する列に数値の重み(1から10)を設定します。この値を使用すると、マッチを実行するときに特定の列の重要度が高くなります。

    • Handle Null (Nullの処理): Null値を含むデータレコードの処理方法を指定します。
      • nullMatchNull: 両方のレコードにNull値が含まれている場合、マッチとみなします。

      • [nullMatch None] (nullMatchなし): 片方のレコードにNULL値が含まれる場合は、一致しているとみなされません。

      • [nullMatch All] (nullMatchすべて): 片方のレコードにNULL値が含まれる場合は、一致しているとみなされます。

    • Survivorship Function (サバイバーシップ関数): ドロップダウンリストから2つの類似するレコードをマージする方法を選択します。
      • Concatenate (連結): 最初のレコードの内容と2番目のレコードの内容を合わせて追加します。たとえば、BillとWilliamは結合されてBillWilliamとなります。[Parameter] (パラメーター)フィールドで、値の区切りに使用する区切りを指定できます。

      • Prefer True (Trueを優先: ブール値の場合): ソースレコードのすべてのブール値がFalseでない限り、結合されたレコードでは常にブール値をTrueに設定します。

      • [Prefer False (for booleans)] (ブール値ではFalse優先): ソースレコードの全てのブール値がTrueの場合を除き、マージされたレコードのブール値は常にFalseに設定されます。

      • Most common (最も一般的): 重複グループの中で最も頻繁に出現するフィールド値を有効にします。

      • Most recent, Most ancient (最も新しい、最も古い): 重複グループの中で前者は最も古い日付を有効にし、後者は最も新しい日付を有効にします。当該の参照カラムは、[Date] (日付)タイプにする必要があります。

      • Longest, Shortest (最長、最短):重複グループの中で前者は最も長いフィールド値を有効にし、後者は最も短いフィールド値を有効にします。

      • Largest, Smallest (最大、最小): 重複グループの中で前者は最大の数値を有効にし、後者は最小の数値を有効にします。

        警告: 一致キーが数値タイプのときには、サバイバーシップ機能に[Largest] (最大)または[Smallest] (最小)を必ず選択してください。
    • [Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップ機能では、このアイテムを使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップ機能では、このアイテムを使用して、データの連結に使用するセパレーターを指定します。

  3. [Match threshold] (しきい値の一致)フィールドに、一致可能性のしきい値を入力します。

    確率がこの値を超えると、2つのデータレコードはマッチとみなされます。

    [Confident match threshold] (信頼できる一致スレッショルド)フィールドで、現在の[Match threshold] (一致スレッショルド)1の間に数値を設定します。

  4. [Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションで、特定のカラムについてデータレコードを存続させる方法を定義します。[+]ボタンをクリックし、新しいルールを追加して、次の条件を設定します。
    • [Input Column] (入力カラム): サバイバーシップルールを適用するカラムを入力します。

    • Survivorship Function (サバイバーシップ関数): ドロップダウンリストから2つの類似するレコードをマージする方法を選択します。

    • [Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップ機能では、このアイテムを使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップ機能では、このアイテムを使用して、データの連結に使用する区切りを指定します。

    [Match And Survivor] (一致およびサバイバー)セクションで一致キーのサバイバーシップ機能を指定し、[Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションでも、入力カラムとして一致キーのサバイバーシップ機能を指定した場合は、[Match And Survivor] (一致およびサバイバー)セクションで選択したサバイバーシップ機能がカラムに適用されます。

  5. [Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションでは、特定のデータ型のサバイブマッチの方法を定義します: BooleanDateNumberString
    1. [+]ボタンをクリックして、各データ型の他の新しい行を追加します。
    2. [Data Type] (データ型)列で、ドロップダウンリストから当該のデータ型を選択します。
    3. [Survivorship Function] (サバイバーシップ関数)で、ドロップダウンリストから2つの類似レコードをマージする方法を選択します。データ型によっては、特定の選択肢のみが該当する場合があることに注意してください。
      警告: 一致キーが数値タイプのときには、サバイバーシップ機能に[Largest] (最大)または[Smallest] (最小)を必ず選択してください。
    4. [Parameter] (パラメーター): [Most trusted source] (最も信頼できるソース)サバイバーシップ機能では、このアイテムを使用して、マスターレコードのベースとして使用するデータソースの名前を設定します。[Concatenate] (連結)サバイバーシップ機能では、このアイテムを使用して、データの連結に使用するセパレーターを指定します。

    [Survivorship Rules For Columns] (カラムのサバイバーシップルール)セクションでカラムのサバイバーシップ機能を指定し、[Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションでもカラムのデータ型のサバイバーシップ機能を指定した場合は、[Survivorship Rules For Columns] (カラムのサバイバーシップルール)で選択したサバイバーシップ機能がカラムに適用されます。

    動作を指定しないデータ型が1つでもあった場合は、デフォルトの動作([Most common] (最も一般的)なサバイバーシップ機能)が適用されます。すなわち、各重複グループで最も頻度の高いフィールド値が検証されます。

  6. 変更を保存します。