ジョブを確定して実行する - Cloud - 8.0

Talendツールを使ってデータマッチング

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
Last publication date
2024-02-06

手順

  1. tLogRowコンポーネントをダブルクリックして、その[Basic settings] (基本設定)ビューを表示し、コンポーネントのプロパティを定義します。
  2. ジョブを保存し、[F6]を押して実行します。

タスクの結果

レコードが3つの異なるグループにまとめられていることが確認できます。各レコードが、グループ内で計算された最小距離であるグループスコアの値に従って、3つのグループのどれかにリスト表示されます。

各グループの識別子(Stringデータ型のもの)が、対応するレコードの横にあるGIDカラム内にリスト表示されます。この識別子は、古いリリースから移行したジョブの場合はLongというデータ型になります。グループ識別子をStringにするには、インポートしたジョブ内のtMatchGroupコンポーネントを、Talend Studio[Palette] (パレット)からのtMatchGroupに置き換えます。

3つの出力ブロックのそれぞれのレコード数がGRP_SIZEカラム内にリスト表示され、マスターレコードでのみ計算されます。MASTERカラムは、対応するレコードがマスターレコードかそうでないかをTrueまたはFalseで示します。SCOREカラムには、Jaro-WinklerJaroマッチングアルゴリズムに従い、入力レコードとマスターレコードの間の計算距離がリスト表示されます。

ジョブは最初のルールを基にレコードを評価し、そこでマッチングしたレコードは2番目のルールでは評価しません。

グループスコアがマッチング間隔(適用するルールに応じて0.95または0.85)の間にあるすべてのレコード、およびtMatchGroupの詳細設定で定義されている信頼しきい値が、[Suspects] (サスペクト)出力フロー内にリスト表示されます。

グループスコアがマッチング可能性のどれか以上であるレコードのすべてが、[Matches] (マッチング)出力フロー内にリスト表示されます。

グループサイズが1に等しいレコードのすべてが、[Uniques] (一意値)出力フロー内にリスト表示されます。

生成された機能キーに基づいて出力レコードを単一の出力フローにグルーピングする別のシナリオは、Identificationのセクションで同じ機能キーを持つ出力フロー重複レコード内でカラムを比較し、グルーピングするをご覧ください。