VSRアルゴリズムを使ったマッチングキーの定義 - 7.3

Talend Big Data Platform Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発

手順

  1. [Record Linkage algorithm] (レコード連鎖アルゴリズム)セクションで、デフォルトで選択されていない場合は、[Simple VSR Matcher] (単純VSRマッチャー)を選択します。
  2. [Data] (データ)セクションで[Select Matching Key] (マッチングキーの選択)タブをクリックし、一致アルゴリズムを適用するカラムの名前をクリックします。
    選択された入力カラムと同じ名前を持つマッチングキーが、[Matching Key] (マッチングキー) テーブルにリスト表示されます。
    このテーブルからカラムを削除するには、そのカラムを右クリックして[Delete] (削除)を選択するか、[Data] (データ)テーブルでそのカラムの名前をクリックします。
  3. 使用する一致アルゴリズムを[Matching Function] (マッチング機能)カラムから、そしてNULL演算子を[Handle Null] (NULLの扱い)カラムから選択します。
    この例では2つのマッチングキーが定義されており、ファーストネームとラストネームにそれぞれ[Levenshtein][Jaro-Winkler]という一致メソッドを使用して重複レコードを取得します。
    ユーザー定義の外部一致アルゴリズムを使用する場合は、[Custom] (カスタム)を選択し、[Custom Matcher] (カスタムマッチャー)カラムを使って、ユーザー定義アルゴリズムのJarファイルをロードします。
    マッチングルールのアルゴリズムとパラメーターの詳細は、『Talendコンポーネントリファレンスガイド』のtMatchGroupに関する記述を参照してください。