重複値の分析 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Studioの Profiling パースペクティブで一致分析を使用して、データベースまたは区切り記号付きファイルのカラムを比較し、VSRまたはT-Swooshアルゴリズムを使って類似レコードのグループを作成することができます。

この分析を使うと、シンプルな方法で一致ルールを作成してカラムのセットでテストでき、結果をエディターに直接表示できます。データで一致ルールをテストした後は、エディターからエクスポートしてStudioリポジトリに保存し、tMatchGrouptRecordMatchingtGenkey、Hadoopなどの一致コンポーネントにインポートして後から使用できます。

また、 Profiling パースペクティブを使い、一致ルールエディターで一致ルールを定義してStudioリポジトリーに保存することもできます。詳細は、一致ルールの作成を参照して下さい。