Accéder au contenu principal

Rapprochement de deux mesures

Pour comparer un attribut de deux enregistrements, vous pouvez utiliser la fonction de rapprochement disponible de votre choix, comme Exact, Levenshtein et Jaro-Winkler, ou un algorithme de rapprochement personnalisé que vous avez créé.

Vous pouvez également comparer plusieurs attributs de deux enregistrements. Pour qu'une mise en correspondance s'effectue, les deux conditions suivantes doivent être réunies :

  • Lorsque vous utilisez l'algorithme T-Swoosh, le score pour chaque fonction de rapprochement dans la règle de rapprochement doit dépasser le seuil, si défini. Par défaut, le seuil est défini à 1. Ceci est l'équivalent d'une correspondance exacte pour la plupart des fonctions de rapprochement, excepté pour Exact - ignore case et, potentiellement, tout algorithme de rapprochement personnalisé.
  • Le score global, qui est un score pondéré des différentes fonctions de rapprochement, doit être supérieur au seuil de correspondance. Le score est égal à Σ(wi × si(r1,r2)) / Σwi, où wi correspond au poids numérique de la fonction de rapprochement i et si(r1,r2) correspond au score de la fonction de rapprochement i sur-enregistre r1 et r2 .

Dans cet exemple, le score pour la métrique Jaro-Winkler sur l'attribut fname doit être supérieur à 0.7 et le score global, avec un poids numérique de 1 sur chacune des deux mesures, doit être supérieur à 0.85.

Cet exemple illustre le calcul de la moyenne pondérée qui correspond au score global de deux enregistrements similaires :
  1. Comme la valeur de Confidence Weight pour les deux attributs est configurée à 1, le poids normalisé de chaque attribut est 0.5.
  2. La distance de rapprochement de l'attribut est de 1 pour l'attribut lname et de 0.722... pour l'attribut fname.
  3. Le score est calculé de la manière suivante : 0.5 x 1 + 0.5 x 0.722... = 0.8611...

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !