マッチングルールの作成と定義 - 8.0

マスターデータ管理の例

Version
8.0
Language
日本語
Operating system
MDM Platform
Product
Talend Data Fabric
Talend MDM Platform
Module
Talend Data Stewardship
Talend MDM Server
Talend MDM Web UI
Talend Studio
Content
データガバナンス > データ検証
データクオリティとプレパレーション > データのマッチング
データクオリティとプレパレーション > 重複データの削除
Last publication date
2023-01-12

このシナリオでは、fnameフィールドとlnameフィールドに基づいてCustomerエンティティに属するステージングデータレコードのマッチングを行うために、マッチングルールMatchCustomerを作成して定義する必要があります。

MDMでは、マッチングルールを使用して2つ以上のデータレコードが一致しているかどうか判断し、一致する場合はそれらを処理する方法を決定します。

手順

  1. [MDM Repository] (MDMリポジトリー)ツリービューで[Match Rule] (マッチングルール)を右クリックして、コンテキストメニューから[New] (新規)を選択します。
  2. ダイアログボックスが開いたら、新規マッチングルールの名前を定義します。
    必要に応じて、マッチングルールをわかりやすくするために[Purpose] (目的)フィールドと[Description] (説明)フィールドに情報を入力します。
  3. [Finish] (完了)をクリックしてダイアログボックスを閉じます。
    新しく作成されたマッチングルールが[Match Rule] (マッチングルール)ノードの下に表示されます。[Match Rule Editor] (マッチングルールエディター)が開いたら、マッチングルールの特性をさらに定義する必要があります。
  4. [Record linkage algorithm] (レコード連鎖アルゴリズム)セクションで[T-Swoosh]を選択します。
    T-Swooshアルゴリズムを使用して重複を検出したり、サバイバーシップ機能を使用して類似のレコードをマージしてマスターレコードを作成する方法を定義したりできます。
  5. [Match and Survivor] (一致とサバイバー)セクションで、データレコードをマッチングする際に使用する条件を定義します。
    このサンプルでは、2つのマッチングキーFirstnameLastnameを追加し、マッチング関数にJaro-Winklerを選択し、両方のしきい値を0.8に設定し、サバイバーシップ機能に[Longest (for strings)] (最長(文字列))を選択します。
  6. [Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションでは、Boolean、Number、Dateという特定のデータ型のサバイブマッチの方法を定義します。
    一部またはすべてのデータ型について、動作を指定しない場合はデフォルトの動作が適用されます。
    マッチングルールを定義したら、データモデルの特定のエンティティに添付する必要があります。
    マッチングルールをMDMサーバーに直接デプロイすることはできません。マッチングルールは、その追加先のデータモデルと共にデプロイされます。