手順
- tLogRowコンポーネントをダブルクリックして、その[Basic settings] (基本設定)ビューを表示し、コンポーネントのプロパティを定義します。
- ジョブを保存し、[F6]を押して実行します。
タスクの結果
レコードが3つの異なるグループにまとめられていることが確認できます。各レコードが、グループ内で計算された最小距離であるグループスコアの値に従って、3つのグループのどれかにリスト表示されます。
各グループの識別子(Stringデータ型のもの)が、対応するレコードの横にあるGIDカラム内にリスト表示されます。この識別子は、古いリリースから移行したジョブの場合はLongというデータ型になります。グループ識別子をStringにするには、インポートしたジョブ内のtMatchGroupコンポーネントを、Talend Studioの [Palette] (パレット)からのtMatchGroupに置き換えます。
3つの出力ブロックのそれぞれのレコード数がGRP_SIZEカラム内にリスト表示され、マスターレコードでのみ計算されます。MASTERカラムは、対応するレコードがマスターレコードかそうでないかをTrueまたはFalseで示します。SCOREカラムには、Jaro-WinklerとJaroマッチングアルゴリズムに従い、入力レコードとマスターレコードの間の計算距離がリスト表示されます。
ジョブは最初のルールを基にレコードを評価し、そこでマッチングしたレコードは2番目のルールでは評価しません。
グループスコアがマッチング間隔(適用するルールに応じて0.95または0.85)の間にあるすべてのレコード、およびtMatchGroupの詳細設定で定義されている信頼しきい値が、[Suspects] (サスペクト)出力フロー内にリスト表示されます。
グループスコアがマッチング可能性のどれか以上であるレコードのすべてが、[Matches] (マッチング)出力フロー内にリスト表示されます。
グループサイズが1に等しいレコードのすべてが、[Uniques] (一意値)出力フロー内にリスト表示されます。
生成された機能キーに基づいて出力レコードを単一の出力フローにグルーピングする別のシナリオは、Identificationのセクションで同じ機能キーを持つ出力フロー重複レコード内でカラムを比較し、グルーピングするをご覧ください。