マッチングルールの定義

手順

tMatchGroupの基本設定で[Preview] (プレビュー)をクリックして設定ウィザードを開き、マッチングキーとサバイバーシップ機能を定義します。

設定ウィザードを使用して、Studio Talendで作成およびテストし、リポジトリーに保存した一致ルールをインポートし、マッチングジョブで使用できます。詳細は、マッチングルールをStudio Talendリポジトリーからインポートをご覧ください。

コンポーネントの基本設定で同じ種類のマッチングアルゴリズムを選択し、構成ウィザードで定義することが重要です。それ以外の場合、ジョブは2つのアルゴリズム間で互換性のないパラメーターのデフォルト値で実行されます。
マッチングルールを次のように定義します。
- [Key definition] (キー定義)テーブルで[+]ボタンをクリックしてテーブルに行を追加します。[Input Key Attribute] (入力キー属性)カラムをクリックし、マッチングオペレーションを行うカラム(このシナリオではfirst_name)を選択します。
- [Matching Function] (マッチングファンクション)カラムをクリックし、リストからSoundexを選択します。このメソッドでは、処理済みのエントリーが標準英語の音声アルゴリズムに従ってマッチングされます。このアルゴリズムでは、英語の発音による音で文字列にインデックスが作成されます。
- [Tokenized measure] (トークン化された測定)リストで、選択したアルゴリズムにトークン化された距離を使用しないように指定します。
- [Threshold] (しきい値)を0.8に、[Confidence Weight] (重み付け)を1に設定します。
- マッチング結果にnull値の影響が最小となるように、[Handle Null] (NULLの扱い)カラムで[Null Match None] (Nullはマッチしない)を選択します。
- [Survivorship Function] (サバイバーシップ機能)カラムで[Most common] (最も一般的)を選択します。このメソッドでは、重複の各グループで最も頻度の高い名前の値が検証されます。
デフォルトサバイバーシップルールを次のように定義します。
- [Default Survivorship Rules] (デフォルトサバイバーシップルール)テーブルで[+]ボタンをクリックしてテーブルに行を追加します。[Data Type] (データ型)カラムをクリックし、[Number] (番号)を選択します。
- [Survivorship Function] (サバイバーシップ機能)カラムをクリックし、リストから[Largest (for numbers)] (最大(数字))を選択します。このメソッドでは、各グループで最大の数値が検証されます。
結果チャートとマッチングテーブルにどのグループを表示するかを決めるために、[Hide groups of less than] (未満でグループを非表示)パラメーターを設定するために使われます。このパラメーターにより、サイズの小さいグループを非表示にすることもできます。
ウィザードの[Chart] (チャート)ボタンをクリックして、定義済みの設定でジョブを実行し、結果をウィザードに直接表示します。

マッチングチャートは、分析されたデータの重複の全体図が表示されます。マッチングテーブルには各グループの項目の詳細が示され、マッチングチャートの色に基づいてグループが色分けされます。また、レコードのうち、マスターレコードはtrueと表示されます。各グループ内のマスターレコードは、2つの類似するレコードを音声アルゴリズムとサバイバーシップルールに従ってマージした結果です。マスターレコードは、入力データ内に存在しない新しいレコードです。
[OK]をクリックしてウィザードを閉じます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください