Utilisation de la barre de statistiques - Cloud

Guide de prise en main de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-03-06

La façon la plus rapide d'identifier les données invalides est de regarder la barre de statistiques.

En dessous de chaque en-tête de colonne se trouve une barre de statistiques, affichant le nombre de champs contenant des données valides ou invalides et le nombre de champs vides. Chaque catégorie est représentée par une couleur :

  • vert pour les données qui correspondent au type de la cellule,
  • gris pour les cellules vides,
  • rouge pour les données qui ne correspondent pas au format de la cellule,

Cliquez sur l'une des couleurs pour sélectionner, supprimer ou bien vider les cellules avec des données qui possèdent un format invalide. Passer votre souris sur l'une des couleurs vous permet d'afficher le nombre exact de lignes dans cette catégorie, tout comme le pourcentage qu'il représente dans la colonne.

En regardant la barre de statistiques sous l'en-tête de la colonne Email, vous pouvez constater qu'il y a des cellules vides et des valeurs invalides parmi vos données. Vous allez les supprimer.

Barre de statistiques sous la colonne Email, avec une partie grise signalant des cellules vides et une partie rouge signalant des valeurs incorrectes.

Pour utiliser la barre de statistiques et supprimer les lignes qui contiennent des cellules invalides, procédez comme suit :

Procédure

  1. Cliquez sur la partie grise de la barre de statistiques, dans l'en-tête de la colonne Email.
    Un menu déroulant s'affiche.
    Liste déroulante de la partie grise de la colonne Email.
  2. Cliquez sur Delete the rows with empty cells (Supprimer les lignes ayant une cellule).
    Les cellules vides de la colonne Email ont été supprimées et seules les valeurs invalides, représentées par la couleur rouge, sont conservées.
    Seules les valeurs invalides restent dans la colonne Email.
  3. Répétez les deux dernières étapes, mais cette fois, cliquez sur la partie rouge de la barre de statistiques et sélectionnez Delete the rows with invalid cells (Supprimer les lignes contenant une cellule invalide).
    La colonne Email ne contient plus aucune valeur invalide ou cellule vide.
    La colonne Email ne contient plus que des valeurs valides.
  4. Utilisez la barre de statistiques pour supprimer les cellules invalides des colonnes Zip et Phone.

Résultats

La colonne State est maintenant la dernière à contenir des cellules invalides, mais vous allez la traiter d'une manière différente.