Sélectionner les meilleures données d'un groupe de doublons afin de créer un enregistrement consolidé - 7.0

Deduplication

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux solutions Talend Platform et Talend Data Fabric nécessitant souscription.

Pour plus d'informations concernant les technologies supportées par Talend, consultez .

Le Job de ce scénario regroupe les données en doublon et créer un représentant unique de ces doublons. Ce représentant est l'enregistrement consolidé à la fin du processus de sélection et vous pouvez l'utiliser, par exemple, pour créer une copie maître des données pour MDM.

Les composants utilisés dans ce Job sont :

  • un tFixedFlowInput : il fournit les données d'entrée à traiter par ce Job. Dans un cas d'utilisation réel, vous pouvez utiliser un autre composant d'entrée afin de remplacer le tFixedFlowInput et fournir les données nécessaires.

  • un tMatchGroup : il regroupe les doublons des données d'entrée et donne et donne à chaque groupe des informations concernant l'identifiant et la taille de son groupe. Les noms techniques de ces informations sont respectivement GID et GRP_SIZE et elles sont requises par le composant tRuleSurvivorship.

  • un tRuleSurvivorship : il crée le flux personnalisé de consolidation afin de sélectionner les données de meilleure qualité composant le représentant unique de chaque groupe de doublons.

  • un tFilterColumns : il exclut les colonnes techniques et écrit en sortie les colonnes contenant les informations qui vous intéressent.

  • et un tLogRow : il présente le résultat de l'exécution du Job.

Pour reproduire ce scénario, procédez comme dans les sections suivantes.