Scénario 3 : Utiliser les fonctions de consolidation pour fusionner deux enregistrements et créer un enregistrement maître

Data matching

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Real-Time Big Data Platform
Talend MDM Platform
Talend Data Fabric
Talend Data Services Platform
Talend Big Data Platform
Talend Data Management Platform
task
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux solutions Talend Platform et Talend Data Fabric nécessitant souscription.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Ce scénario décrit un Job simple utilisant l'algorithme T-Swoosh pour trouver des doublons dans les noms des clients. Il compare les valeurs de la colonne first_name à l'aide de méthodes de rapprochement et de consolidation, regroupe les enregistrement similaires et crée des représentations uniques des entités dans chaque groupe en fusionnant deux enregistrements similaires selon une règle de consolidation.

Ce enregistrements maître sont de nouveaux enregistrements qui n'existent pas dans les données d'entrée.

Vous pouvez utiliser plusieurs passes de rapprochement dans un Job, avec l'algorithme T-Swoosh. Chaque passe fournit les enregistrements maître consolidés pour chaque groupe et les enregistrements originaux de la deuxième passe. Cependant, les enregistrements maître intermédiaires sont supprimés du flux de sortie. Seuls les enregistrements maître finaux et les enregistrements originaux sont conservés.

Dans ce Job :

  • le tFileInputDelimited fournit des enregistrements clients à traiter,

  • le tMatchGroup traite des données à l'aides de méthodes de rapprochement et de consolidation,

  • le tLogRow affiche les résultats du rapprochement et de la consolidation.