Rapprochement de deux mesures - 7.1

Matching

author
Talend Documentation Team
EnrichVersion
Cloud
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement
EnrichPlatform
Studio Talend
Pour comparer un attribut de deux enregistrements, vous pouvez utiliser la fonction de rapprochement disponible de votre choix, comme Exact, Levenshtein et Jaro-Winkler, ou un algorithme de rapprochement personnalisé que vous avez créé.

Vous pouvez également comparer plusieurs attributs de deux enregistrements. Pour qu'une mise en correspondance s'effectue, les deux conditions suivantes doivent être réunies :

  • Lorsque vous utilisez l'algorithme T-Swoosh, le score pour chaque fonction de rapprochement dans la règle de rapprochement doit dépasser le seuil, si défini. Par défaut, le seuil est défini à 1. Ceci est l'équivalent d'une correspondance exacte pour la plupart des fonctions de rapprochement, excepté pour Exact - ignore case et, potentiellement, tout algorithme de rapprochement personnalisé.
  • Le score global, qui est un score pondéré des différentes fonctions de rapprochement, doit être supérieur au seuil de correspondance. Le score est égal à Σ(wi × si(r1,r2)) / Σwiwi est le poids numérique de la fonction de rapprochement i et si(r1,r2) est le score de la fonction de rapprochement i entre les enregistrements r1 et r2 .

Dans cet exemple, le score pour l’algorithme Levenshtein sur l'attribut country doit être supérieur à 0.7 et le score global, avec un poids numérique de 1 sur chacune des deux mesures, doit être supérieur à 0.85.

Cet exemple illustre le calcul de la moyenne pondérée qui correspond au score global de deux enregistrements similaires.