Suppression des enregistrements vides et invalides - 7.3

Exemples d'utilisation de Talend Data Preparation

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
Qualité et préparation de données > Nettoyage de données
Last publication date
2023-08-08

La barre de statistiques indique si une colonne contient des enregistrements vides ou invalides.

Dans la barre de statistiques, les données qui correspondent au type de la colonne apparaissent en vert, tandis que les données invalides, qui ne correspondent pas au type de la colonne, apparaissent en orange. Les enregistrements vides sont représentés en gris.

Puisque vous souhaitez mettre l'accent sur les clients appartenant à une certaine tranche d'âge et provenant de certains États, des données vides ou invalides dans les colonnes correspondantes vous seraient inutiles. Vous allez donc simplement supprimer les enregistrement vides des colonnes age et state, ainsi que supprimer les enregistrements invalides de votre jeu de données.

Procédure

  1. Cliquez sur l'icône de menu dans la partie supérieure gauche de la grille et choisissez Display rows with invalid or empty values (Afficher les lignes ayant des valeurs invalides ou vides).

    Vous pouvez constater que cette action crée un filtre sur vos données, et que seules les lignes de votre jeu de données avec des enregistrements vides ou invalides sont maintenant affichées. Vous pouvez voir tous les filtres appliqués sur vos données en haut de la grille.

    De plus, vous pouvez voir qu'une nouvelle option est disponible au bas du panneau des fonctions. En effet, lorsqu'un filtre ou une condition est appliqué·e, vous pouvez choisir d'appliquer les fonctions sur les données complètes ou uniquement sur les données filtrées. C'est de cette manière que vous pouvez utiliser des conditions avec Talend Data Preparation.

    Maintenant que ce premier filtre est actif sur votre jeux de données, vous allez supprimer de manière spécifique les enregistrements vides des colonnes age et state.

  2. Cliquez sur la partie grise de la barre de statistiques dans l'en-tête de la colonne age.
  3. Dans le menu qui s'ouvre, cliquez sur Delete the rows with empty cells (Supprimer les lignes ayant une cellule vide).

    Maintenant que ces enregistrements vides on été supprimés, la colonne age ne contient plus que des données valides, comme vous pouvez le voir dans la barre de statistiques.

  4. Répétez la même opération pour la colonne state.

    Comme révélé par la condition active, les autres colonnes de votre jeu de données contiennent des valeurs vides, mais comme vous vous concentrez sur l'âge et l'emplacement, vous pouvez les laisser inchangées. En revanche, vous allez supprimer les données invalides de la colonne phone number, qui peut être utilisée à des fins marketing.

  5. Cliquez sur la partie orange de la barre de statistiques de la colonne phone number et sélectionnez Delete the rows with invalid cell (Supprimer les lignes contenant une cellule invalide).

    Toutes les données qui étaient considérées invalides sont maintenant supprimées.

  6. Dans la barre de filtre, cliquez sur l'icône représentant une poubelle pour annuler le filtre et afficher à nouveau le jeu de données complet.

Résultats

Les lignes contenant des valeurs vides ou invalides dans les colonnes age, state et phone numbers ont été supprimées. Le jeu de données est à présent plus propre. Vous pouvez commencer à vous concentrer sur les données à mettre en lumière.