Standardiser automatiquement des valeurs dans une colonne - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-04-04

Vous pouvez utiliser la fonction Standardize value (fuzzy matching) (Standardiser la valeur) pour trouver la valeur correcte la plus proche pour les données invalides contenues dans une colonne.

La fonction compare les données invalides contenues dans une colonne avec les valeurs définies pour le type sémantique actuel de la colonne. Elle va ensuite récupérer la valeur valide, si le palier de correspondance sélectionné est atteint. Cette fonction n'est disponible que si le type sémantique est basé sur un dictionnaire de valeurs ou un type composé, présent par défaut dans Talend Data Preparation, ou que vous avez créé avec Talend Dictionary Service. Pour plus d'informations concernant la création de types sémantiques personnalisés, ou la modifications des types existants, consultez Enrichissement des bibliothèques de types sémantiques.

Imaginons que vous devez travailler sur un jeu de données contenant différentes informations sur des clients basés aux États-Unis, telles que leurs noms, adresses e-mail, ainsi que l’État dans lequel ils vivent.

Comme vous pouvez le voir dans l'en-tête de la colonne State, les données sont bien reconnues en tant qu’états américains, cependant comme le montre la barre de statistiques, certaines des entrées contiennent des noms invalides.

Colonne State sélectionnée ayant des noms invalides.

En une seule action, vous allez corriger ces valeurs invalides, en les remplaçant par la valeur correcte extraite du dictionnaire, ou type sémantique US State, qui contient une liste exhaustive de tous les États des États-Unis.

Remarque : La fonction Standardize value (fuzzy matching) ne supporte pas les caractères asiatiques.

Procédure

  1. Cliquez sur l'en-tête de la colonne State pour sélectionner son contenu.
  2. Dans le panneau des fonctions, saisissez Standardize values et cliquez sur le résultat pour ouvrir les options de la fonction associée.
  3. Dans la liste déroulante Match threshold (Seuil pour le rapprochement), sélectionnez le pourcentage de correspondance qui doit être atteint entre la valeur invalide et la valeur valide pour que la correction s'effectue.

    Les trois valeurs de pourcentage suivantes sont disponibles :

    • High (Haut) : Seules les valeurs avec au moins 90 % de correspondance avec la valeur de référence sont remplacées.
    • Default (Par défaut) : Seules les valeurs avec au moins 80 % de correspondance avec la valeur de référence sont remplacées.
    • None (Aucun) : Remplace les valeurs invalides par la valeur valide la plus proche.

    C'est l'algorithme de Levenshtein qui est utilisé pour gérer la correspondance entre les données. Dans le cas d'une chaîne composée, le processus de rapprochement se divise en quatre étapes :

    1. Une recherche est effectuée sur la chaîne entière et sur chaque unité lexicale.
    2. Les valeurs de dictionnaire qui ont moins de trois caractères de différence avec la chaîne complète ou avec l'une des chaînes lexicales sont récupérés.
    3. Une distance sur les paires possibles est calculée, afin de récupérer les meilleures.
    4. Le seuil de rapprochement choisi par l'utilisateur ou l'utilisatrice filtre les résultats, en fonction de la distance.

    Exemple

    • Clermont Talend correspond à Clermont, grâce à la première chaîne lexicale.
    • Clermont-Ferra correspond à Clermont-Ferrand car il y a moins de trois caractères de différence avec la chaîne complète.
    • Clermon-Ferant correspond à Clermont car il y a plus de trois caractères de différence avec la chaîne complète, mais un seul caractère de différence avec la chaîne lexicale Clermont.
  4. Cliquez sur le bouton Preview (Prévisualisation) pour prévisualiser le résultat de la fonction et cliquez sur Submit (Soumettre) pour l'appliquer.
    Colonne State sélectionnée ayant des noms corrects.

Résultats

Les valeurs invalides ont été uniformisées en utilisant le dictionnaire des États américains.