Dédupliquer des valeurs dans des colonnes - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-02-21

Vous pouvez utilisez la fonction Deduplicate rows with identical values pour facilement supprimer les lignes partiellement ou entièrement dupliquées avec d'autres lignes.

Remarque : Cette fonction n'est pas compatible avec les Jobs Spark, avec les exports HDFS ou S3.

Les informations dupliquées sont souvent introduites dans les tableurs lors d'erreurs humaines, avec un mauvais copier-coller par exemple, ou lors d'opérations automatisées. Dans le jeu de données suivant, contenant des informations basiques sur des clients, vous remarquerez que les colonnes firstname et lastname contiennent toutes les deux des valeurs présentes plus d'une fois.

Jeu de données contenant des informations client·es dupliquées.

Jake et Peralta sont des entrées qui, lues séparément, laissent à penser que les colonnes firstname et lastname contiennent des doublons. Cependant, à y regarder de plus près, l'information des lignes 1, 2 et 4 provient de clients différents partageant le même nom ou prénom. La ligne 3 par contre est une vraie copie de la ligne 2, même s'il lui manque également des informations.

Une opération de déduplication sur les deux colonnes, séparément, résulterait en une perte d'informations précieuses sur les clients partageant le même nom ou prénom, vous utiliserez donc la fonction Deduplicate rows with identical values sur ces deux colonnes en même temps. De cette façon, cette fonction ne supprimera que les lignes avec des copies de noms et de prénoms, comme les lignes 2 et 3, mais également d'autres copies potentielles plus loin dans le jeu de données.

Procédure

  1. Cliquez sur l'en-tête des colonnes firstname et lastname tout en maintenant la touche Ctrl enfoncée pour en sélectionner le contenu.
  2. Dans le panneau des fonctions, saisissez Deduplicate rows with identical values et cliquez sur le résultat pour afficher les options de la fonction associée.
  3. Dans la liste déroulante Matching criterion, sélectionnez la règle de restriction que vous souhaitez appliquer, Exact value par exemple.
    • Simplified text (Texte simplifié) : la ponctuation, les espaces blancs, la casse et les accents sont ignorés. Par exemple, si Pâté-en-croûte est votre valeur de référence, les lignes contenant pate-eN-cRoute seront supprimées mais pas les lignes avec Pâté n croûte.
    • Ignore case and accents (Ignorer la casse et les accents) : la casse et les accents ne sont pas pris en compte. Par exemple, si Pâté-en-croûte est votre valeur de référence, les lignes contenant pate-en-croute seront supprimées mais pas les lignes avec pate en croute.
    • Exact value (Valeur exacte) : la règle de validation la plus restrictive. Les lignes seront supprimées uniquement si il existe une correspondance exacte avec la valeur de référence.
  4. Cliquez sur Submit.

Résultats

La ligne contenant la copie de la ligne 2 sera supprimée, tandis que les autres lignes avec les valeurs identiques seront conservées car elles ne correspondaient pas au critère à deux colonnes.
Jeu de données contenant des informations client·es non dupliquées.