Supprimer les valeurs en doublon - 7.1

Guide de prise en main de Talend Data Management Platform

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Management Platform
task
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime

Les résultats de profiling de l'analyse de colonnes montrent qu'il existe des enregistrements en doublon dans les colonnes Email et Phone. Pour plus d'informations, consultez Afficher les résultats d'analyse.

À partir des résultats d'analyse, vous pouvez générer des Jobs prêts à l'emploi séparant les enregistrements uniques des enregistrements en doublon dans les colonnes sélectionnées. Ces Jobs produisent en sortie tous les doublons dans un fichier de rejet délimité par défaut et écrivent les valeurs uniques dans la base de données utilisée dans l'analyse.

Vous pouvez suivre la même procédure pour la suppression des doublons dans les colonnes Email or Phone.

Avant de commencer

Procédure

  1. Ouvrez l'analyse de colonnes dans la perspective Profiling et cliquez sur Analysis Results au bas de l'éditeur.
  2. Dans les résultats Simple Statistics de la colonne Email ou Phone column, cliquez-droit sur Duplicate Count et sélectionnez Identify duplicates.

    Cet exemple utilise les résultats des statistiques simples utilisées dans la colonne Email.

    La perspective Integration s'ouvre sur le Job généré. Ce dernier est listé dans l'arborescence Repository.

    Les composants tMysqlInput, tUniqueRow et tMysqlOutputBulkExec sont automatiquement configurés selon votre connexion et les colonnes analysées. Le tMysqlOutputBulkExec écrit les enregistrements uniques dans une nouvelle table dans MySQL et le tFileOutputDelimited écrit les enregistrements en doublon dans un fichier de sortie délimité.

  3. Appuyez sur F6 pour exécuter le Job.

Résultats

Les valeurs en doublon sont écrites dans le fichier de sortie et les enregistrements uniques sont écrits dans une nouvelle table de la base de données gettingstarted dans MySQL.