Détecter des numéros de téléphone incorrects à l'aide de modèles - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

L'onglet des modèles de la zone de profiling peut être utilisé pour détecter des problèmes de qualité de données en indiquant les modèles de basse fréquence dans les données.

Cet exemple présente un cas d'utilisation dans lequel des analyses de modèles peuvent corriger des problèmes de données. Le jeu de données suivant contient des numéros de téléphone provenant de clients tout autour du monde, dans différents formats. Comme l'indique la barre de statistiques, certains de ces numéros de téléphone sont considérés comme invalides Grâce à l'analyse de modèles, vous allez trouver la nature de l'erreur dans la colonne.

Procédure

  1. Cliquez sur l'en-tête de la colonne phone pour sélectionner son contenu.
  2. Dans la zone de profiling du jeu de données, sélectionnez l'onglet Pattern.
    Les différents modèles utilisés dans cette colonne sont affichés sous forme de diagramme. Par défaut, le diagramme présente la répartition des données à l'aide de modèles basés sur les mots. Lorsqu'il y a plus de 15 valeurs ou modèles différents à afficher dans la zone de profiling des données, vous pouvez parcourir ces valeurs grâce au système de pagination.

    Parmi tous ces nombres, qui devraient contenir uniquement des modèles de nombres [number], une anomalie se détache. En effet, une barre au bas du diagramme indique qu'un enregistrement contient un mot [word].

  3. Cliquez sur la barre correspondant au modèle de plus basse fréquence du jeu de données.
    Ce faisant, vous avez appliqué un filtre sur la ligne correspondante pour isoler l'erreur. La préparation affiche à présent la ligne avec la valeur Jeffords(323) 254-9541 qui correspond au format [word]([number]) [number]-[number].

    Vous pouvez voir que cette partie du nom complet de la colonne précédente a été mélangée au numéro de téléphone, probablement à cause d'une erreur humaine, par exemple un mauvais copier-coller.

  4. Doublie-cliquez sur la cellule afin de la modifier et de corriger la valeur.
  5. Dans la barre de filtre, cliquez sur la croix de chaque filtre ou sur l'icône représentant une poubelle afin d'annuler les filtres et afficher à nouveau le jeu de données complet.

Résultats

Vous avez pu identifier et isoler un problème de qualité de données en regardant la répartition des modèles des numéros de téléphone.