La barre de statistiques indique si une colonne contient des enregistrements vides ou invalides.
Dans la barre de statistiques, les données qui correspondent au type de la colonne apparaissent en vert, tandis que les données invalides, qui ne correspondent pas au type de la colonne, apparaissent en orange. Les enregistrements vides sont représentés en gris.
Puisque vous souhaitez mettre l'accent sur les clients appartenant à une certaine tranche d'âge et provenant de certains États, des données vides ou invalides dans les colonnes correspondantes vous seraient inutiles. Vous allez donc simplement supprimer les enregistrement vides des colonnes age et state, ainsi que supprimer les enregistrements invalides de votre jeu de données.
Procédure
-
Cliquez sur l'icône de menu dans la partie supérieure gauche de la grille et choisissez Display rows with invalid or empty values (Afficher les lignes ayant des valeurs invalides ou vides).
Vous pouvez constater que cette action crée un filtre sur vos données, et que seuls les lignes de votre jeu de données avec des enregistrements vides ou invalides sont maintenant affichées. Tous les filtres qui sont actifs à un moment donné sont visibles au dessus de la grille.
De plus, une nouvelle option est disponible en bas du panneau des fonctions. En effet lorsqu'un filtre, ou condition, est appliqué, vous avez le choix d'appliquer des fonctions sur l'ensemble du jeu de données, ou bien uniquement sur les données filtrées. C'est de cette manière que vous pouvez utiliser des conditions avec Talend Data Preparation.
Maintenant que ce premier filtre est actif sur votre jeux de données, vous allez supprimer de manière spécifique les enregistrements vides des colonnes age et state.
-
Cliquez sur la partie grise de la barre de statistiques dans l'en-tête de la colonne age.
-
Dans le menu qui s'ouvre, cliquez sur Delete the rows with empty cells (Supprimer les lignes ayant une cellule vide).
Maintenant que ces enregistrements vides on été supprimés, la colonne age ne contient plus que des données valides, comme vous pouvez le voir dans la barre de statistiques.
-
Répétez cette opération pour la colonne state.
Comme le révèle la condition actuellement active, d'autres colonnes de votre jeu de données possèdent également des enregistrements vides, mais puisque l'accent est mis sur l'âge et la localisation, vous pouvez les laisser telles quelles. En revanche, vous allez supprimer les données invalides de la colonne phone number, qui peut être utilisée à des fins marketing.
-
Cliquez sur la partie orange de la barre de statistiques de la colonne phone number et sélectionnez Delete the rows with invalid cell (Supprimer les lignes contenant une cellule invalide).
Toutes les données qui étaient considérées invalides sont maintenant supprimées.
-
Dans la barre de filtre, cliquez sur l'icône représentant une poubelle pour annuler le filtre et afficher à nouveau le jeu de données complet.
Résultats
Les lignes contenant des données vides ou invalides pour les colonnes age, state et phone numbers sont supprimées. Maintenant que le jeu de données est un peu plus propre, vous pouvez commencer à mettre l'accent sur les données à isoler.