Filtrer les tâches à l'aide des modèles - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

L'onglet Pattern (Modèles) de la zone de profiling de données affiche une représentation graphique du type et du nombre de caractères qui constituent vos données. En d'autres termes, vous pourrez voir comment sont structurés les enregistrements, avec une granularité de mot ou de caractère. Il peut également être utilisé pour filtrer rapidement et simplement vos données.

Lorsque le contenu d'une colonne est sélectionné, un diagramme à barres horizontales affichera la répartition des différents modèles utilisés. Selon le type de données que vous avez sélectionné, les modèles affichés par défaut seront différents :

  • Basé sur les mots, si le type de la colonne est text ou boolean.
  • Basé sur les caractères si le type de la colonne est date ou number.

Quel que soit le type de données, vous pouvez passer du modèle basé sur les caractères au modèle basé sur les mots dans l'onglet Pattern.

Analyser des modèles basés sur les mots est un moyen efficace de détecter des problèmes de qualité de données dans les prénoms ou les noms de famille, par exemple. Les noms qui ne sont pas uniquement composés de mots, par exemple avec des signes de ponctuation ou des chiffres se démarquent au premier coup d’œil. Les modèles basés sur des caractères conviennent mieux aux données structurées, comme les ID clients ou les numéros de comptes. À partir du tableau, vous pouvez savoir si le nombre de caractères ou chiffres est incorrect.

Cet exemple utilise un jeu de données contenant des informations clients habituelles, comme leur nom, leur adresse e-mail, l'entreprise pour laquelle ils travaillent ou leur date de souscription.

Procédure

  1. Sélectionnez une colonne contenant les données à filtrer, email par exemple.
  2. Dans la zone de profiling, cliquez sur l'onglet Pattern.
    Les différents modèles utilisés dans cette colonne sont affichés sous forme de diagramme. Cette colonne utilise des données de type text, le diagramme affiche donc la répartition des données à l'aide de modèles basés sur les mots.
  3. Passez à la vue des modèles se basant sur les caractères en cliquant sur l'icône A.
    Cela vous donne un point de vue différent pour analyser vos données.
  4. Retournez à la vue des modèles se basant sur les mots en cliquant sur l'icône Text.
  5. Cliquez sur la barre supérieure pour appliquer un filtre sur le modèle le plus commun.

    La préparation affiche à présent uniquement les lignes au format [word]@[word].[word].

    Vous pouvez également utiliser la combinaison Ctrl + Clic ou Maj + Clic pour sélectionner plusieurs valeurs en même temps et appliquer un filtre plus complexe.

  6. En appuyant sur la touche Ctrl, cliquez sur la barre correspondant au modèle [word][number]@[word].[word] pour ajouter ce filtre au précédent.
    Les données qui s'affichent correspondent aux deux filtres.
  7. Dans le panneau des fonctions, cliquez sur une fonction afin de l'exécuter sur les données filtrées, Delete these Filtered Rows (Supprimer ces lignes filtrées) par exemple.
  8. Dans la barre de filtre, cliquez sur la croix de chaque filtre ou sur l'icône représentant une poubelle afin d'annuler les filtres et afficher à nouveau le jeu de données complet.