L'algorithme Simple VSR Matcher - 7.3

Rapprochement de données à l'aide des outils Talend

Version
7.3
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07
L'algorithme Simple VSR Matcher compare chaque enregistrement au sein d'un même bloc avec les enregistrements maître précédents dans la table de contrôle.

Si un enregistrement ne correspond à aucun des enregistrements maître précédents, il est considéré comme étant un nouvel enregistrement maître et est ajouté à la table de contrôle. Cela signifie que le premier enregistrement du jeu de données est obligatoirement un enregistrement maître. L'ordre des enregistrements est donc important et peut influencer le processus de création des enregistrements maître.

Lorsqu'un enregistrement correspond à un enregistrement maître, l'algorithme Simple VSR Matcher ne cherche pas de correspondance avec d'autres enregistrements maître car les enregistrements maître de la table de contrôle ne sont pas similaires. Par conséquent, lorsqu'un enregistrement correspond à un enregistrement maître, ses chances de correspondre à un autre enregistrement maître sont faibles.

Cela signifie qu'un enregistrement ne peut exister que dans un seul groupe et n'être lié qu'à un seul enregistrement maître.

Par exemple, prenez le jeu d'enregistrements suivant en entrée :

id fullName
1 John Doe
2 Donna Lewis
3 John B. Doe
4 Louis Armstrong

L'algorithme traite les enregistrements en entrée comme suit :

  1. L'algorithme prend l'enregistrement 1 et le compare à un jeu de données vide. Puisque l'enregistrement 1 ne correspond à aucun enregistrement, il est ajouté à la table de contrôle.
  2. L'algorithme prend l'enregistrement 2 et le compare à l'enregistrement 1. Puisqu'il n'y a pas de correspondance, l'enregistrement 2 est ajouté à la table de contrôle.
  3. L'algorithme prend l'enregistrement 3, puis le compare à l'enregistrement 1 et à l'enregistrement 2. L'enregistrement 3 correspond à l'enregistrement 1. Par conséquent, l'enregistrement 3 est ajouté au groupe de l'enregistrement 1.
  4. L'algorithme prend l'enregistrement 4, puis le compare à l'enregistrement 1 et à l'enregistrement 2 mais pas avec l'enregistrement 3, qui n'est pas un enregistrement maître. Puisqu'il n'y a pas de correspondance, l’enregistrement 4 est ajouté à la table de contrôle.

La sortie ressemblera à la table suivante :

id fullName Grp_ID Grp_Size Master Score GRP_QUALITY
1 John Doe 0 2 true 1.0 0.72
3 John B. Doe 0 0 false 0.72 0
2 Donna Lewis 1 1 true 1.0 1.0
4 Louis Armstrong 2 1 true 1.0 1.0