Accéder au contenu principal

Utilisation de fonctions de consolidation pour fusionner deux enregistrements et créer un enregistrement maître

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Pour plus de technologies supportées par Talend, consultez .

Ce scénario décrit un Job simple utilisant l'algorithme T-Swoosh pour trouver des doublons dans les noms des clients. Il compare les valeurs de la colonne first_name à l'aide de méthodes de rapprochement et de consolidation, regroupe les enregistrement similaires et crée des représentations uniques des entités dans chaque groupe en fusionnant deux enregistrements similaires selon une règle de consolidation.

Ce enregistrements maître sont de nouveaux enregistrements qui n'existent pas dans les données d'entrée.

Vous pouvez utiliser plusieurs passes de rapprochement dans un Job, avec l'algorithme T-Swoosh. Chaque passe fournit les enregistrements maître consolidés pour chaque groupe et les enregistrements originaux de la deuxième passe. Cependant, les enregistrements maître intermédiaires sont supprimés du flux de sortie. Seuls les enregistrements maître finaux et originaux sont conservés.

Dans ce Job :

  • le tFileInputDelimited fournit des enregistrements clients à traiter,

  • le tMatchGroup traite des données à l'aide de méthodes de rapprochement et de consolidation,

  • le tLogRow affiche les résultats du rapprochement et de la consolidation.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !