重複コンポーネントの使用 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

データクオリティコンポーネントの中には、データベースのカラムを分析し、マッチングルールや比較アルゴリズムを使用して、重複をグループ化するか、値を照合することができるコンポーネントがあります。たとえば、tMatchGrouptMatchGroupHadooptRecordMatchingtGenKeytSurviveFieldtRuleSurvivorshipコンポーネントなどです。

存続ルールパッケージの管理の詳細は、サバイバーシップルールパッケージの管理を参照して下さい。

重複コンポーネントの詳細とサンプルジョブについては、『Talend Components Reference Guide』および区切り記号付きファイル(csvファイル)のクレンジングを参照して下さい。

注: データクオリティのデモプロジェクトにも、重複コンポーネントを使用できる既製ジョブがあります。詳細は、データクオリティデモプロジェクトのインポートを参照して下さい。