Règles avec l'algorithme VSR - 7.1

Guide utilisateur de Talend Data Services Platform Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Services Platform
task
Création et développement
EnrichPlatform
Studio Talend

L'algorithme VSR prend un ensemble d'enregistrements en entrée et regroupe les doublons rencontrés selon les règles de rapprochement définies. Il compare des paires d'enregistrements et les assigne à des groupes. Le premier enregistrement traité dans chaque groupe est l'enregistrement maître du groupe. L'ordre des enregistrements a donc une importance et peut influencer le résultat du processus de création des enregistrement maîtres.

L'algorithme VSR compare chaque enregistrement par rapport au maître de chaque groupe et utilise les distances calculées, depuis les enregistrements maître, pour décider du groupe auquel un enregistrement doit appartenir.

Dans l'analyse de rapprochement et les composants de rapprochement, les résultats des mises en correspondance via l'algorithme VSR varient selon l'ordre des enregistrements d'entrée. Si possible, placez d'abord, dans le flux d'entrée, les enregistrements les plus fiables, pour une meilleure précision de l'algorithme.

Notez que les composants de rapprochement, notamment les composants de rapprochement Hadoop s'exécutent uniquement avec des règles configurées avec l'algorithme VSR.

Vous pouvez importer et tester la règle sur vos données dans l'éditeur d'analyse de rapprochement. Pour plus d'informations, consultez Importer ou exporter des règles de rapprochement.

Vous pouvez également importer la règle dans l'assistant de configuration du tMatchGroup et dans d'autres composants de rapprochement, notamment les composants Hadoop et utiliser cette règle dans les Jobs de rapprochement. Pour plus d'informations, consultez la documentation du tMatchGroup dans le Guide de référence des Composants Talend.