T-Swooshアルゴリズムを使ったルール - 7.3

Talend Big Data Platform Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発

T-Swooshアルゴリズムを使用して重複を検出したり、サバイバーシップ機能を使用して類似のレコードをマージしてマスターレコードを作成する方法を定義したりできます。このような新しくマージされたレコードは、新たな重複を検出するために使用されます。

T-SwooshアルゴリズムとVSRアルゴリズムの違いは以下のとおりです。
  • T-Swooshアルゴリズムを使用する場合、マスターレコードは一般に、入力レコードのリストに存在しない新しいレコードとなります。
  • T-Swooshアルゴリズムを使用する場合は、各カラムにマスターレコードを作成するためのサバイバーシップ機能を定義できます。