同じ機能キーを持つ出力フロー重複レコード内でカラムを比較し、グルーピングする - Cloud - 8.0

Identification

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント

このシナリオは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

この2番目のシナリオでは、次を目的とするジョブについて説明します。

  • シナリオ1で説明したように、入力カラムの1つのDoB上でアルゴリズムを1つ使用して機能キーを生成します。

  • Jaro-Winklerアルゴリズムを使用して2つの入力カラムを照合します。

  • 生成された機能キーによって出力カラムをグルーピングして、一致操作を最適化し、このシナリオの同じブロッキング値や機能キーを持つレコードのみを比較します。出力カラムのグルーピングとブロッキング値の使用については、tMatchGroupを参照してください。