重複コンポーネントの使用 - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

データクオリティコンポーネントの中には、データベースのカラムを分析し、マッチングルールや比較アルゴリズムを使用して、重複をグループ化するか、値を照合することができるコンポーネントがあります。たとえば、tMatchGrouptMatchGroupHadooptRecordMatchingtGenKeytSurviveFieldtRuleSurvivorshipコンポーネントなどです。

存続ルールパッケージの管理の詳細は、サバイバーシップルールパッケージの管理を参照して下さい。

検証コンポーネントの詳細およびサンプルジョブについては、データクオリティの章を 『Talend Components Reference Guide』で、および区切り記号付きファイル(csvファイル)のクレンジングを参照して下さい。

データクオリティのデモプロジェクトにも、重複コンポーネントを使用できる既製ジョブがあります。詳細は、データクオリティデモプロジェクトのインポートを参照して下さい。