Scénario 1 : Grouper les données de sortie dans des flux séparés, selon la distance minimale calculée dans chaque enregistrement

Data matching

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Real-Time Big Data Platform
Talend MDM Platform
Talend Data Fabric
Talend Data Services Platform
Talend Big Data Platform
Talend Data Management Platform
task
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux solutions Talend Platform et Talend Data Fabric nécessitant souscription.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Ce scénario décrit un Job simple comparant des colonnes dans le fichier d'entrée à l'aide de la méthode de Jaro-Winkler, sur les colonnes lname et fname, ainsi qu'à l'aide de la méthode de correspondance de q-grams sur la colonne address1. Le Job regroupe ensuite les enregistrements de sortie dans trois flux de sortie :
  • Uniques : liste les enregistrements dont le score du groupe (distance minimale calculée dans l'enregistrement) est égal à 1.

  • Matches : liste les enregistrements dont le score du groupe (distance minimale calculée dans l'enregistrement) est supérieur au seuil défini dans le champ Confidence threshold.

  • Suspects : liste les enregistrements dont le score du groupe (distance minimale calculée dans l'enregistrement) est inférieur au seuil défini dans le champ Confidence threshold.

Pour un autre scénario regroupant les enregistrements de sortie dans un flux de sortie unique, consultez Scénario 2 : Comparer les colonnes et regrouper dans le flux de sortie les enregistrements en doublon ayant la même clé fonctionnelle.