Supprimer les valeurs en doublon - 6.2

Talend Big Data Platform Studio Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Après analyse des colonnes email et postal à l'aide d'indicateurs de statistiques simples, les résultats d'analyse affichent le nombre d'enregistrements en doublon dans les colonnes. Générez un Job prêt à l'emploi sur les résultats d'analyse. Ce Job supprime les valeurs en doublon dans la colonne sélectionnée.

Pour supprimer les valeurs en doublon de la colonne email :

  1. Dans la perspective Profiling, cliquez sur Analysis Results dans la partie inférieure de l'éditeur.

  2. Dans les résultats Simple Statistics de la colonne email, cliquez-droit sur la barre des doublons dans le graphique et sélectionnez Remove duplicates.

    La perspective Integration s'ouvre dans le studio et affiche le Job généré avec les composants correspondants. Pour plus d'informations concernant ces composants, consultez le Guide de référence des Composants Talend.

    Le composant d'entrée de base de données et le tUniqueRow sont déjà configurés selon votre connexion et les colonnes analysées.

  3. Sauvegardez le Job et appuyez sur F6 pour l'exécuter.

    Les valeurs en doublon sont écrites dans la base de données et dans le fichier spécifiés.

    Vous pouvez suivre la même procédure afin de retirer les doublons de la colonne postal.

Pour plus d'informations concernant l'utilisation de la perspective Profiling pour identifier et supprimer les données corrompues, incomplètes ou imprécises, consultez le chapitre concernant le nettoyage de données, dans le Guide utilisateur du Studio Talend.