一致ルールの作成と定義 - 7.3

マスターデータ管理の例

EnrichVersion
7.3
EnrichProdName
Talend Data Fabric
Talend MDM Platform
EnrichPlatform
Talend Data Stewardship
Talend MDM Server
Talend MDM Web UI
Talend Studio
task
データガバナンス > データ検証
データクオリティとプレパレーション > データのマッチング
データクオリティとプレパレーション > 重複データの削除

このシナリオでは、fnameフィールドとlnameフィールドに基づいてCustomerエンティティに属するステージングデータレコードのマッチングを行うために、一致ルールMatchCustomerを作成して定義する必要があります。

MDMでは、一致ルールを使用して2つ以上のデータレコードが一致しているかどうか判断し、一致する場合はそれらを処理する方法を決定します。

手順

  1. [MDM Repository] (MDMリポジトリ)ツリービューで[Match Rule] (一致ルール)を右クリックして、コンテキストメニューから[New] (新規)を選択します。
  2. ダイアログボックスが開いたら、新規一致ルールの名前を定義します。
    必要に応じて、一致ルールをわかりやすくするために[Purpose] (目的)フィールドと[Description] (説明)フィールドに情報を入力します。
  3. [Finish] (完了)をクリックしてダイアログボックスを閉じます。
    新しく作成された一致ルールが[Match Rule] (一致ルール)ノードの下に表示されます。[Match Rule Editor] (一致ルールエディター)が開いたら、一致ルールの特性をさらに定義する必要があります。
  4. [Record linkage algorithm] (レコード連鎖アルゴリズム)セクションで[T-Swoosh]を選択します。
    T-Swooshアルゴリズムを使用して重複を検出したり、サバイバーシップ機能を使用して類似のレコードをマージしてマスターレコードを作成する方法を定義したりすることができます。
  5. [Match and Survivor] (一致とサバイバー)セクションで、データレコードをマッチングする際に使用する条件を定義します。
    このサンプルでは、2つの一致キーFirstnameLastnameを追加し、マッチング機能にJaro-Winklerを選択し、両方のスレッショルドを0.8に設定し、サバイバーシップ機能に[Longest (for strings)] (最長(文字列))を選択します。
  6. [Default Survivorship Rules] (デフォルトサバイバーシップルール)セクションでは、Boolean、Number、Dateという特定のデータ型のサバイブマッチの方法を定義します。
    一部またはすべてのデータ型について、動作を指定しない場合はデフォルトの動作が適用されます。
    一致ルールを定義したら、データモデルの特定のエンティティに添付する必要があります。
    一致ルールをMDMサーバーに直接デプロイすることはできません。一致ルールは、その追加先のデータモデルとともにデプロイされます。