Accéder au contenu principal Passer au contenu complémentaire

Supprimer les valeurs en doublon

Les résultats de profiling de l'analyse de colonnes montrent qu'il existe des enregistrements en doublon dans les colonnes Email et Phone. Pour plus d'informations, consultez Afficher les résultats d'analyse (uniquement en anglais).

À partir des résultats d'analyse, vous pouvez générer des Jobs prêts à l'emploi séparant les enregistrements uniques des enregistrements en doublon dans les colonnes sélectionnées. Ces Jobs produisent en sortie tous les doublons dans un fichier de rejet délimité par défaut et écrivent les valeurs uniques dans la base de données utilisée dans l'analyse.

Vous pouvez suivre la même procédure pour la suppression des doublons dans les colonnes Email or Phone.

Avant de commencer

  • Vous avez ouvert la perspective Profiling dans le Studio.

  • Vous avez créé et exécuté une analyse de colonnes. Pour plus d'informations, consultez Identifier les anomalies dans les données (uniquement en anglais).

Procédure

  1. Ouvrez l'analyse de colonnes dans la perspective Profiling et cliquez sur Analysis Results au bas de l'éditeur.
  2. Dans les résultats Simple Statistics de la colonne Email ou Phone column, cliquez-droit sur Duplicate Count et sélectionnez Identify duplicates.

    Cet exemple utilise les résultats des statistiques simples utilisées dans la colonne Email.

    La perspective Integration s'ouvre sur le Job généré. Ce dernier est listé dans l'arborescence Repository.

    Les composants tMysqlInput, tUniqueRow et tMysqlOutputBulkExec sont automatiquement configurés selon votre connexion et les colonnes analysées. Le tMysqlOutputBulkExec écrit les enregistrements uniques dans une nouvelle table dans MySQL et le tFileOutputDelimited écrit les enregistrements en doublon dans un fichier de sortie délimité.

  3. Appuyez sur F6 pour exécuter le Job.

Résultats

Les valeurs en doublon sont écrites dans le fichier de sortie et les enregistrements uniques sont écrits dans une nouvelle table de la base de données gettingstarted dans MySQL.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !