Supprimer les valeurs en doublon - 6.5

Exemples de Jobs et d'analyse de qualité de données

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Open Studio for Data Quality
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Qualité et préparation de données
EnrichPlatform
Studio Talend
Après analyse des colonnes email et postal à l'aide d'indicateurs de statistiques simples, les résultats d'analyse affichent le nombre d'enregistrements en doublon dans les colonnes. Générez un Job prêt à l'emploi sur les résultats d'analyse. Ce Job supprime les valeurs en doublon dans la colonne sélectionnée.

Procédure

  1. Dans la perspective Profiling, cliquez sur Analysis Results dans la partie inférieure de l'éditeur.
  2. Dans les résultats Simple Statistics de la colonne email, cliquez-droit sur la barre des doublons dans le graphique et sélectionnez Remove duplicates.

    La perspective Integration s'ouvre dans le Studio Talend et affiche le Job généré avec les composants correspondants.

    Pour plus d'informations concernant ces composants, consultez le Guide de référence des composants Talend.

    Le composant d'entrée de base de données et le tUniqueRow sont déjà configurés selon votre connexion et les colonnes analysées.

  3. Sauvegardez le Job et appuyez sur F6 pour l'exécuter.

Résultats

Les valeurs en doublon sont écrites dans la base de données et dans le fichier spécifiés.

Que faire ensuite

Vous pouvez suivre la même procédure afin de retirer les doublons de la colonne postal.

Pour plus d'informations concernant l'utilisation de la perspective Profiling pour identifier et supprimer les données corrompues, incomplètes ou imprécises, consultez le chapitre Nettoyage de données, dans le Guide utilisateur du Studio Talend.