Accéder au contenu principal Passer au contenu complémentaire

Supprimer les valeurs en doublon

Après analyse des colonnes email et postal à l'aide d'indicateurs de statistiques simples, les résultats d'analyse affichent le nombre d'enregistrements en doublon dans les colonnes. Générez un Job prêt à l'emploi sur les résultats d'analyse. Ce Job supprime les valeurs en doublon dans la colonne sélectionnée.

Vous pouvez suivre la même procédure pour la suppression des doublons dans les colonnes Email or Phone.

Procédure

  1. Dans la perspective Profiling, cliquez sur Analysis Results dans la partie inférieure de l'éditeur.
  2. Dans les résultats Simple Statistics de la colonne Email ou Phone, cliquez-droit sur la barre des doublons dans le graphique et sélectionnez Remove duplicates.

    Cet exemple utilise les résultats des statistiques simples utilisées dans la colonne Email.

    La perspective Integration s'ouvre sur le Job généré.

    Job généré automatiquement à partir des résultats d'analyse.

    Le composant d'entrée de base de données et le tUniqRow sont déjà configurés en fonction de votre connexion et des colonnes analysées.

  3. Sauvegardez le Job et appuyez sur F6 pour l'exécuter.

Résultats

Les valeurs en doublon sont écrites dans la base de données et dans le fichier spécifiés.

Que faire ensuite

Vous pouvez suivre la même procédure afin de retirer les doublons de la colonne postal.

Pour plus d'informations concernant l'utilisation de la perspective Profiling pour identifier et supprimer les données corrompues, incomplètes ou imprécises, consultez le chapitre Nettoyage de données, dans le Guide d'utilisation du Studio Talend.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !