Standardiser automatiquement des valeurs dans une colonne - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez utiliser la fonction Standardize value (fuzzy matching) (Standardiser la valeur) pour trouver la valeur correcte la plus proche pour les données invalides contenues dans une colonne.

La fonction compare les données invalides contenues dans une colonne avec les valeurs définies pour le type sémantique actuel de la colonne. Elle va ensuite récupérer la valeur valide, si le palier de correspondance sélectionné est atteint. Cette fonction n'est disponible que si le type sémantique de la colonne est basé sur un dictionnaire de valeurs présent par défaut dans Talend Data Preparation, ou que vous avez créé avec Talend Dictionary Service. Pour plus d'informations concernant la création de types sémantiques personnalisés, ou la modifications des types existants, consultez Enrichissement des bibliothèques de types sémantiques via l'interface.

Imaginons que vous devez travailler sur un jeu de données contenant différentes informations sur des clients basés aux États-Unis, telles que leurs noms, adresses e-mail, ainsi que l’État dans lequel ils vivent.

Comme vous pouvez le voir dans l'en-tête de la colonne State, les données sont bien reconnues en tant qu’états américains, cependant comme le montre la barre de statistiques, certaines des entrées contiennent des noms invalides.

En une seule action, vous allez corriger ces valeurs invalides, en les remplaçant par la valeur correcte extraite du dictionnaire, ou type sémantique US State, qui contient une liste exhaustive de tous les États des États-Unis.

Remarque : La fonction Standardize value (fuzzy matching) ne supporte pas les caractères asiatiques.

Procédure

  1. Cliquez sur l'en-tête de la colonne State pour sélectionner son contenu.
  2. Dans le panneau des fonctions, saisissez Standardize values et cliquez sur le résultat pour ouvrir les options de la fonction associée.
  3. Dans la liste déroulante Match threshold (Seuil pour le rapprochement), sélectionnez le pourcentage de correspondance qui doit être atteint entre la valeur invalide et la valeur valide pour que la correction s'effectue.

    Les trois valeurs suivantes sont disponibles:

    • High (Haut) : Seules les valeurs avec au moins 90% de correspondance avec la valeur de référence sont remplacées.
    • Default (Par défaut) : Seules les valeurs avec au moins 80% de correspondance avec la valeur de référence sont remplacées.
    • None (Aucun) : Remplace les valeurs invalides avec la valeur de référence la plus proche.

    C'est l'algorithme de Levenshtein qui est utilisé pour gérer la correspondance entre les données. Dans le cas d'une chaîne composée, le processus de correspondance se divise en quatre étapes :

    • Une recherche est effectuée sur la chaîne entière et sur chaque unité lexicale.
    • Les valeurs de dictionnaire qui ont moins de trois caractères de différence avec la chaîne complète ou avec l'une des chaînes lexicales sont récupérés.
    • Une distance sur les paires possibles est calculée, afin de récupérer les meilleures.
    • Le seuil de rapprochement choisi par l'utilisateur filtre les résultats, en fonction de la distance.
    • Clermont Talend correspond à Clermont grâce à la première chaîne lexicale.
    • Clermont-Ferra correspond à Clermont-Ferrand car il y a moins de trois caractères de différence avec la chaîne complète.
    • Clermon-Ferant correspond à Clermont car il y a plus de trois caractères de différence avec la chaîne complète, mais un seul caractère de différence avec la chaîne lexicale Clermont.
  4. Passez votre souris sur le bouton Submit (Soumettre) pour avoir un aperçu du résultat de la fonction, et cliquez pour l'appliquer.

Résultats

Les valeurs invalides ont été uniformisées en utilisant le dictionnaire des États américains.