同じ機能キーを持つ出力フロー重複レコード内でカラムを比較し、グループ化する - 7.2

Identification

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント

このシナリオは、Talend Data Management PlatformTalend Big Data PlatformTalend Real Time Big Data PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

この2番目のシナリオでは、次を目的とするジョブについて説明します。

  • シナリオ1で説明したように、入力カラムの1つのDoB上でアルゴリズムを1つ使用して機能キーを生成します。

  • Jaro-Winklerアルゴリズムを使用して2つの入力カラムを照合します。

  • 生成された機能キーによって出力カラムをグループ化して、一致操作を最適化し、このシナリオの同じブロッキング値や機能キーを持つレコードのみを比較します。出力カラムのグループ化とブロッキング値の使用については、tMatchGroupを参照してください。