Rapprochement de deux mesures - Cloud - 8.0

Rapprochement de données à l'aide des outils Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07
Pour comparer un attribut de deux enregistrements, vous pouvez utiliser la fonction de rapprochement disponible de votre choix, comme Exact, Levenshtein et Jaro-Winkler, ou un algorithme de rapprochement personnalisé que vous avez créé.

Vous pouvez également comparer plusieurs attributs de deux enregistrements. Pour qu'une mise en correspondance s'effectue, les deux conditions suivantes doivent être réunies :

  • Lorsque vous utilisez l'algorithme T-Swoosh, le score pour chaque fonction de rapprochement dans la règle de rapprochement doit dépasser le seuil, si défini. Par défaut, le seuil est défini à 1. Ceci est l'équivalent d'une correspondance exacte pour la plupart des fonctions de rapprochement, excepté pour Exact - ignore case et, potentiellement, tout algorithme de rapprochement personnalisé.
  • Le score global, qui est un score pondéré des différentes fonctions de rapprochement, doit être supérieur au seuil de correspondance. Le score est égal à Σ(wi × si(r1,r2)) / Σwi, où wi correspond au poids numérique de la fonction de rapprochement i et si(r1,r2) correspond au score de la fonction de rapprochement i sur-enregistre r1 et r2 .

Dans cet exemple, le score pour la métrique Jaro-Winkler sur l'attribut fname doit être supérieur à 0.7 et le score global, avec un poids numérique de 1 sur chacune des deux mesures, doit être supérieur à 0.85.

Cet exemple illustre le calcul de la moyenne pondérée qui correspond au score global de deux enregistrements similaires :
  1. Comme la valeur de Confidence Weight pour les deux attributs est configurée à 1, le poids normalisé de chaque attribut est 0.5.
  2. La distance de rapprochement de l'attribut est de 1 pour l'attribut lname et de 0.722... pour l'attribut fname.
  3. Le score est calculé de la manière suivante : 0.5 x 1 + 0.5 x 0.722... = 0.8611...