Accéder au contenu principal

L'algorithme Simple VSR Matcher

L'algorithme Simple VSR Matcher compare chaque enregistrement au sein d'un même bloc avec les enregistrements maître précédents dans la table de contrôle.

Si un enregistrement ne correspond à aucun des enregistrements maître précédents, il est considéré comme étant un nouvel enregistrement maître et est ajouté à la table de contrôle. Cela signifie que le premier enregistrement du jeu de données est obligatoirement un enregistrement maître. L'ordre des enregistrements est donc important et peut influencer le processus de création des enregistrements maître.

Lorsqu'un enregistrement correspond à un enregistrement maître, l'algorithme Simple VSR Matcher ne cherche pas de correspondance avec d'autres enregistrements maître car les enregistrements maître de la table de contrôle ne sont pas similaires. Par conséquent, lorsqu'un enregistrement correspond à un enregistrement maître, ses chances de correspondre à un autre enregistrement maître sont faibles.

Cela signifie qu'un enregistrement ne peut exister que dans un seul groupe et n'être lié qu'à un seul enregistrement maître.

Par exemple, prenez le jeu d'enregistrements suivant en entrée :

id fullName
1 John Doe
2 Donna Lewis
3 John B. Doe
4 Louis Armstrong

L'algorithme traite les enregistrements en entrée comme suit :

  1. L'algorithme prend l'enregistrement 1 et le compare à un jeu de données vide. Puisque l'enregistrement 1 ne correspond à aucun enregistrement, il est ajouté à la table de contrôle.
  2. L'algorithme prend l'enregistrement 2 et le compare à l'enregistrement 1. Puisqu'il n'y a pas de correspondance, l'enregistrement 2 est ajouté à la table de contrôle.
  3. L'algorithme prend l'enregistrement 3, puis le compare à l'enregistrement 1 et à l'enregistrement 2. L'enregistrement 3 correspond à l'enregistrement 1. Par conséquent, l'enregistrement 3 est ajouté au groupe de l'enregistrement 1.
  4. L'algorithme prend l'enregistrement 4, puis le compare à l'enregistrement 1 et à l'enregistrement 2 mais pas avec l'enregistrement 3, qui n'est pas un enregistrement maître. Puisqu'il n'y a pas de correspondance, l’enregistrement 4 est ajouté à la table de contrôle.

La sortie ressemblera à la table suivante :

id fullName Grp_ID Grp_Size Master Score GRP_QUALITY
1 John Doe 0 2 true 1.0 0.72
3 John B. Doe 0 0 false 0.72 0
2 Donna Lewis 1 1 true 1.0 1.0
4 Louis Armstrong 2 1 true 1.0 1.0

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !