Dédupliquer des valeurs dans des colonnes - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez utilisez la fonction Deduplicate rows with identical values pour facilement supprimer les lignes partiellement ou entièrement dupliquées avec d'autres lignes.

Les informations dupliquées sont souvent introduites dans les tableurs lors d'erreurs humaines, avec un mauvais copier-coller par exemple, ou lors d'opérations automatisées. Dans le jeu de données suivant, contenant des informations basiques sur des clients, vous remarquerez que les colonnes firstname et lastname contiennent toutes les deux des valeurs présentes plus d'une fois.

Jake et Peralta sont des entrées qui, lues séparément, laissent à penser que les colonnes firstname et lastname contiennent des duplicats. Cependant, à y regarder de plus près, l'information des lignes 1, 2 et 4 provient de clients différents partageant le même nom ou prénom. La ligne 3 par contre est un vrai duplicat de la ligne 2, il lui manque également des informations.

Une opération de déduplication sur les deux colonnes, séparément, résulterait en une perte d'informations précieuses sur les clients partageant le même nom ou prénom, vous utiliserez donc la fonction Deduplicate rows with identical values sur ces deux colonnes en même temps. De cette façon, cette fonction ne supprimera que les lignes avec des duplicats de noms et de prénoms, comme les lignes 2 et 3, mais également d'autres duplicats potentiels plus loin dans le jeu de données.

Procédure

  1. Cliquez sur l'en-tête des colonnes firstname et lastname tout en maintenant la touche CTRL enfoncée pour en sélectionner le contenu.
  2. Dans le panneau des fonctions, saisissez Deduplicate rows with identical values et cliquez sur le résultat pour afficher les options de la fonction associée.
  3. Dans la liste déroulante Matching criterion, sélectionnez la règle de restriction que vous souhaitez appliquer, Exact value par exemple.
    • Simplified text (Texte simplifié) : la ponctuation, les espaces blancs, la casse et les accents sont ignorés. Par exemple, si Pâté-en-croûte est votre valeur de référence, les lignes contenant pate-eN-cRoute seront supprimées mais pas les lignes avec Pâté n croûte.
    • Ignore case and accents (Ignorer la casse et les accents) : la casse et les accents ne sont pas pris en compte. Par exemple, si Pâté-en-croûte est votre valeur de référence, les lignes contenant pate-en-croute seront supprimées mais pas les lignes avec pate en croute.
    • Exact value (Valeur exacte) : la règle de validation la plus restrictive. Les lignes seront supprimées uniquement si il existe une correspondance exacte avec la valeur de référence.
  4. Cliquez sur Submit.

Résultats

La ligne contenant le duplicat de la ligne 2 sera supprimée, tandis que les autres lignes avec les valeurs identiques seront conservées car elles ne correspondaient pas au critère à deux colonnes.