出力データのグループ化の設定 - 7.2

Identification

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント

手順

  1. tMatchGroupコンポーネントをクリックし、基本設定で[Edit schema](スキーマの編集)ボタンをクリックして、入力と出力の列を表示し、必要に応じて出力スキーマの変更を行います。
    このコンポーネントの出力スキーマには、読み取り専用の出力標準カラムがあります。詳細は、tMatchGroup標準プロパティを参照してください。
  2. [OK]をクリックしてダイアログボックスを閉じます。
  3. tMatchGroupコンポーネントをクリックして、その[設定ウィザード] (設定ウィザード)を表示し、コンポーネントのプロパティを定義します。
    各カラム間の距離の詳細を示す固定出力列MATCHING_DISTANCESを追加する場合は、[Advanced settings] (詳細設定)タブをクリックし、[Output distance details] (出力距離の詳細)チェックボックスをオンにします。詳細は、tMatchGroup標準プロパティを参照してください。
  4. Key Definition (キー定義)テーブルでプラスボタンをクリックして、一致する操作を行うカラム、このシナリオではFirstNameLastNameをリストに追加します。
  5. [Matching Function] (一致機能)カラムの1番目と2番目のセルをクリックし、このサンプルではJaro-Winklerと一致する操作に使用するアルゴリズムをリストから選択します。
  6. [Weight] (加重)カラムの1番目と2番目のセルをクリックし、キー属性として使用される各列の数値の重みを設定します。
  7. [Match threshold] (しきい値の一致)フィールドに、一致可能性のしきい値を入力します。しきい値がこの値を上回る場合、2つのデータレコードは一致します。
  8. [Blocking Selection] (ブロック選択)テーブルの下にあるプラスボタンをクリックしてテーブルに行を追加し、その行をクリックして、このサンプルではブロック値として使用するカラムT_GEN_KEYをリストから選択します。
    ブロッキング値を使用すると、検査する必要があるレコードのペアの数が減ります。入力データは、機能キーに基づいて網羅的なブロックに分割されます。これにより、比較が各ブロック内のレコードペアに制限されるため、比較するペアの数が減少します。
  9. ウィザードの右上にある[Chart] (チャート)ボタンをクリックして、定義済みの設定でジョブを実行し、ウィザードで一致する結果を直接表示します。
    一致チャートは、分析されたデータの重複の全体図が表示されます。一致テーブルには各グループのアイテムの詳細が示され、一致チャートの色に基づいてグループが色分けされます。