L'algorithme Simple VSR Matcher - 7.1

Data matching

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend
L'algorithme Simple VSR Matcher compare chaque enregistrement au sein d'un même bloc avec les enregistrements maître précédents dans la table de contrôle.

Si un enregistrement ne correspond à aucun des enregistrements maître précédents, il est considéré comme étant un nouvel enregistrement maître et est ajouté à la table de contrôle. Cela signifie que le premier enregistrement du jeu de données est obligatoirement un enregistrement maître. L'ordre des enregistrements est donc important et peut influencer le processus de création des enregistrements maître.

Lorsqu'un enregistrement correspond à un enregistrement maître, l'algorithme Simple VSR Matcher ne cherche pas de correspondance avec d'autres enregistrements maître car les enregistrements maître de la table de contrôle ne sont pas similaires. Par conséquent, lorsqu'un enregistrement correspond à un enregistrement maître, ses chances de correspondre à un autre enregistrement maître sont faibles.

Cela signifie qu'un enregistrement ne peut exister que dans un seul groupe et n'être lié qu'à un seul enregistrement maître.

Par exemple, prenez le jeu d'enregistrements suivant en entrée :

id fullName
1 John Doe
2 Donna Lewis
3 John B. Doe
4 Louis Armstrong

L'algorithme traite les enregistrements en entrée comme suit :

  1. L'algorithme prend l'enregistrement 1 et le compare à un jeu de données vide. Puisque l'enregistrement 1 ne correspond à aucun enregistrement, il est ajouté à la table de contrôle.
  2. L'algorithme prend l'enregistrement 2 et le compare à l'enregistrement 1. Puisqu'il n'y a pas de correspondance, l'enregistrement 2 est ajouté à la table de contrôle.
  3. L'algorithme prend l'enregistrement 3, puis le compare à l'enregistrement 1 et à l'enregistrement 2. L'enregistrement 3 correspond à l'enregistrement 1. Par conséquent, l'enregistrement 3 est ajouté au groupe de l'enregistrement 1.
  4. L'algorithme prend l'enregistrement 4, puis le compare à l'enregistrement 1 et à l'enregistrement 2 mais pas avec l'enregistrement 3, qui n'est pas un enregistrement maître. Puisqu'il n'y a pas de correspondance, l’enregistrement 4 est ajouté à la table de contrôle.

La sortie ressemblera à la table suivante :

id fullName Grp_ID Grp_Size Master Score GRP_QUALITY
1 John Doe 0 2 true 1.0 0.72
3 John B. Doe 0 0 false 0.72 0
2 Donna Lewis 1 1 true 1.0 1.0
4 Louis Armstrong 2 1 true 1.0 1.0