Différences entre les algorithmes Simple VSR Matcher et T-Swoosh - 7.1

Data matching

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend

Lors du traitement des données d'entrée au moyen de l'algorithme Simple VSR Matcher, le nombre d'itérations peut être plus élevé que le nombre d'enregistrements en entrée car un enregistrement fusionné peut être créé à chaque itération et ajouté à la file d'attente.

Il s'agit de l'une des principales différences entre les algorithmes Simple VSR Matcher et T-Swoosh.

Lorsqu'un enregistrement est comparé à un enregistrement maître, l'algorithme T-Swoosh effectue plus de comparaisons par itération que l'algorithme Simple VSR matcher :
  • Lorsque vous utilisez l'algorithme Simple VSR matcher, l'enregistrement appartenant à la file d'attente est uniquement comparé à la valeur de l'enregistrement maître. Il n'y a aucune comparaison entre l'enregistrement appartenant à la file d'attente et la valeur des enregistrements utilisés pour créer cet enregistrement maître. Vous devez donc classer les enregistrements dans les données d'entrée pour que les enregistrements les plus fiables apparaissent en premiers.
  • Lorsque vous utilisez l'algorithme T-Swoosh, l'enregistrement appartenant à la file d'attente est comparé à la valeur de l'enregistrement maître et à la valeur de chacun des enregistrements utilisés pour créer cet enregistrement maître, jusqu'à ce qu'il y ait une correspondance.

    Pour un exemple de création d'enregistrements consolidés à l'aide de l'algorithme T-Swoosh, consultez L'algorithme T-Swoosh.

    Dans cet exemple, l'enregistrement "John Doe, John B. Doe" est comparé à "John B. Doe" lors de l'itération 5. Il y a une correspondance si au moins une des trois chaînes de caractères, "John Doe, John B. Doe", "John Doe" et "John B. Doe", correspond à la chaîne "Johnnie B. Doe".