Nettoyage de données - 7.3

Exemples d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Une fois votre préparation sauvegardée, vous pouvez commencer à travailler sur les données clients, comme sur tout autre jeu de données et choisir des fonctions parmi les fonctions courantes.

Le jeu de données que vous importez contient à l'origine 20 000 lignes, mais seul un échantillon des 10 000 premières lignes est affiché par défaut. Cependant, les étapes de préparation seront appliquées au jeu de données complet.

Vous allez effectuer des opérations de nettoyage simples, pour vous assurer que toutes les données contenues dans le jeu de données sont valides et ne contiennent pas d'erreur.

Par exemple, vous pouvez constater la présence d'espaces inutiles dans certaines entrées des colonnes First_Name et Last_Name.

La barre de statistiques sous chaque colonne indique que vos données contiennent des lignes avec des cellules vides ou invalides. La colonne Email, par exemple, contient les deux.

Vous allez supprimer les lignes vides et invalides de la préparation en une action et vous allez supprimer les erreurs de formatage dans les colonnes contenant les noms des clients.

Procédure

  1. Cliquez sur l'en-tête de la colonne First_Name.
  2. Tout en appuyant sur la touche Ctrl, cliquez sur l'en-tête de la colonne Last_Name.

    Les deux colonnes sont maintenant sélectionnées et vous pouvez leur appliquer une fonction en une seule action.

  3. Dans le panneau des fonctions, recherchez la fonction Remove trailing and leading characters (Supprimer les caractères en début et fin de champ) et cliquez dessus pour ouvrir le panneau des options.
  4. Dans la liste déroulante Padding character, sélecitonnez whitespace et cliquez sur Submit.

    Les espaces blancs ont été supprimés des colonnes sélectionnées.

    Vous avez la possibilité de cocher la case Create new column (Créer une nouvelle colonne) pour que le résultat de la fonction s'affiche dans une nouvelle colonne.

  5. Cliquez sur l'icône de menu dans la partie supérieure gauche de la grille, et choisissez Display rows with invalid or empty values (Afficher les lignes ayant des valeurs invalides ou vides).

    Un filtre est appliqué sur vos données. Seules les lignes contenant des cellules vides ou invalides sont affichées, ce qui simplifie la suppression de toutes ces lignes en une fois.

  6. Dans le panneau des fonctions, cliquez sur Delete these filtered rows (Supprimer ces lignes filtrées) pour appliquer la fonction correspondante.

    Toutes les lignes filtrées ont été supprimées et vous pouvez effacer le filtre en cliquant sur l'icône représentant une poubelle, dans la barre de filtre.

Résultats

En deux actions simples, vous avez supprimé toutes les erreurs contenues dans votre jeu de données et avez amélioré la qualité de vos données.

La barre de statistiques de chaque colonne est à présent complètement verte, ce qui indique qu'il ne reste aucune donnée invalide dans votre préparation.