tMatchGroupコンポーネントを設定する | Talendツールを使ってデータマッチングヘルプ

tMatchGroupコンポーネントをクリックして、[Basic settings] (基本設定)ビューを表示します。

[Matching Algorithm] (マッチングアルゴリズム)リストでT-Swooshを選択します。

[Sync columns] (カラムを同期)をクリックして、前のコンポーネントからスキーマを取得します。

[Edit schema] (スキーマを編集)ボタンをクリックして入力および出力スキーマを表示し、必要に応じて出力スキーマに変更を施します。

このコンポーネントの出力スキーマには、読み取り専用の出力標準カラムがあります。詳細は、 tMatchGroupプロパティをご覧ください。

[OK]をクリックしてダイアログボックスを閉じます。

[Advanced settings] (詳細設定)タブをクリックし、次のチェックボックスをオンにします。

[Separate output] (別の出力)

コンポーネントには、[Uniques] (一意値)、[Matches] (マッチング) 、[Suspects] (サスペクト)という3つの個別の出力フローがあります。

このチェックボックスをオンにしていないと、tMatchGroupコンポーネントに含まれる出力フローは1つだけとなり、そこにすべての出力データがまとめられます。シナリオサンプルは、Identificationのセクションで同じ機能キーを持つ出力フロー重複レコード内でカラムを比較し、グルーピングするをご覧ください。
[Sort the output data by GID] (出力データをGIDでソート)
[Output distance details] (距離の詳細を出力)
[Display detailed labels] (詳細ラベルの表示)
ウィザードオープン時のマッチング計算の無効化

[Configure match rules] (マッチングルールの設定)の横にある[...]ボタンをクリックし、コンポーネントの設定とマッチングルールを定義します。

設定ウィザードを使用して、Studio Talendで作成およびテストし、リポジトリーに保存した一致ルールをインポートし、マッチングジョブで使用できます。詳細は、マッチングルールをStudio Talendリポジトリーからインポートをご覧ください。

コンポーネントの基本設定で選択したのと同じタイプのルールをインポートまたは定義することが重要です。それ以外の場合、ジョブは2つのアルゴリズム間で互換性のないパラメーターのデフォルト値で実行されます。

マッチングルールを次のように定義します。

[Key definition] (キー定義)テーブルで[+]ボタンをクリックし、マッチング操作を行うカラム(このシナリオではfnameとlname)をリストに追加します。

情報メモ注: 日付カラムにアルゴリズムやマッチングアルゴリズムを適用すると、日付形式で比較する内容を決定できます。
たとえば、日付の年のみを比較する場合は、コンポーネントスキーマで日付カラムのタイプを[Date]に設定し、[Date Pattern] (日付パターン)フィールドにyyyyと入力します。コンポーネントでは、スキーマで定義されたパターンに基づき、日付形式を文字列に変換してから文字列比較が開始されます。
[Matching Function] (マッチングファンクション)カラムをクリックし、マッチングオペレーションに使用する方法としてJaro-Winklerをリストから選択します。

マッチングタイプとして[custom] (カスタム)を選択する場合は、[Custom Matcher] (カスタムマッチャー)カラム内に使用する必要のあるカスタムクラス(外部マッチングアルゴリズム)をポイントするパスを設定する必要があります。このパスは、ライブラリーファイル(.jarファイル)で自身で定義します。
[Tokenized measure] (トークン化された測定)リストで[No] (いいえ)を選択します。
[Threshold] (しきい値カラムのセルをクリックし、fnameに0.7、lnameに0.4を入力します。
[Confidence Weight] (重み付け)カラムのセルをクリックし、キー属性として使う2つのカラムに数値の重みを設定します: fnameには1、lnameには4。
[Handle Null] (NULLの扱い)カラムのセルをクリックし、カラム内のNull属性の処理に使用するnullオペレーターを選択します。この例では、マッチング結果にnull値の影響が最小となるように、[Null Match NONE] (Nullはマッチしない)を選択します。
[Survivorship Function] (サバイバーシップ機能)で[Most common] (最も一般的)を選択します。

上記の手順を繰り返して、2番目のマッチングルールを定義し、パラメーターを次のように設定します。

[+]ボダン([Duplicate Rule] (重複したルール))をクリックします。
[Input Key Attribute] (入力キー属性): address
[Matching Function] (マッチングファンクション): Jaro
[Tokenized Measure] (トークン化された測定): [No] (いいえ)
[Threshold] (しきい値): 0.8
[Confidence Weight] (信頼度の重み付け): 1
[Handle Null] (Nullの処理): [Null Match NONE] (Nullはマッチしない)
[Survivorship Function] (サバイバーシップ機能): [Most common] (最も一般的)

各[Match Rule] (マッチングルール)の[Match Threshold] (マッチングしきい値)パラメーターを0.8に設定します。

[Hide groups of less than] (未満でグループを非表示)パラメーターを2に設定します。このパラメーターを使うと、小さいサイズのグループを非表示にできます。

[Chart] (チャート)ボタンをクリックして、定義済みの設定でジョブを実行し、マッチング結果をウィザードに直接表示します。

分析されたデータの重複値の全体図がマッチングチャートに表示されます。また、マッチングテーブルには各グループの項目マッチングに関する詳細が示され、マッチングチャートの色に基づいてグループが色分けされます。

ジョブはレコードにORマッチングオペレーションを実行します。ルールに基づいてレコードを評価します。MATCHING_DISTANCESカラムを見ると、どのルールがどのレコードに使用されたかを理解できます。

たとえば2番目のデータグループ(赤レンガ色)では、最後のAmicレコードはaddress1をキー属性として使う2番目のルールに従ってマッチングされます。他方、グループ内のその他のレコードは、lnameとfnameをキー属性として使う最初のルールに従ってマッチングされます。

このサンプルでわかるように、GRP_QUALITYカラムは[Match Threshold] (マッチングしきい値)パラメーターよりも小さくできます。これは、[Match Threshold] (マッチングしきい値)以上のマッチングスコアを持つレコードペアからグループが作成されますが、すべてのレコードが互いに比較されるわけではないためです。他方、GRP_QUALITYはグループ内のすべてのレコードペアを考慮に入れます。