Création de versions de préparation - 2.1

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Dans l'exemple suivant, vous allez effectuer quelques étapes de préparation sur vos données, créer des versions à deux moments différents et apprendre à passer d'une version à l'autre, ainsi que retourner à l'était courant de votre préparation.

Le jeu de données utilisé ici contient des données clients telles que les noms, métiers, numéros de téléphone, adresses e-mail mais nécessite un nettoyage. Les colonnes contenant les noms des clients comprennent des incohérences de format, comme des espaces blancs en début et fin de champs et une casse incohérente. De plus, des numéros de téléphone et des adresses e-mail sont invalides.

Lors de votre travail sur la préparation, vous allez créer deux versions, reflétant l'état de votre préparation à deux moments différents.

Procédure

  1. Cliquez sur l'en-tête de la colonne FIRST_NAME et, tout en appuyant sur la touche Ctrl, cliquez sur l'en-tête de la colonne LAST_NAME.

    Le contenu des deux colonnes est sélectionné.

  2. Appliquez les fonctions Remove trailing and leading characters et Change to title case pour supprimer les espaces blancs et harmoniser la casse.

    La suppression de ces erreurs de format constitue la première grande étape de votre préparation, vous allez donc créer une version pour conserver une trace de ces modifications.

  3. Cliquez sur le bouton Manage versions situé dans la barre en haut.

    Le panneau Functions panel est remplacé par le panneau Versions. Ce panneau est vide, puisqu'aucune version n'existe encore pour cette préparation.

    L'ajout de nouvelles versions via le bouton Manage versions est une fonctionnalité disponible uniquement pour les utilisateurs de Talend Data Preparation ayant des droits d’administrateur. Les autres utilisateurs peuvent uniquement consulter les versions existantes en mode lecture seule.

  4. Cliquez sur le bouton Add version.
  5. Saisissez une description rapide de la version, dans le champ correspondant, Fixing formatting errors in names dans cet exemple, puis cliquez sur Submit.

    Cette version est à présent listée dans le panneau Versions avec son horodatage et la description précédemment saisie.

  6. Cliquez sur la version pour y accéder en mode lecture seule.

    Vous pouvez appliquer des filtres et parcourir des données, mais vous ne pouvez appliquer de fonction.

  7. Pour laisser le mode lecture seule et retourner à votre préparation de données, cliquez sur le bouton Switch to current state, situé dans la barre en haut.

    Vous êtes à nouveau en mode édition.

  8. Pour nettoyer les entrées invalides restantes des colonnes PHONE et EMAIL, cliquez sur l'icône de menu dans le coin supérieur gauche de la grille et sélectionnez Display rows with invalid or empty values.
  9. Dans le panneau Functions panel, sélectionnez les fonctions Delete these filtered rows.

    Toutes les valeurs invalides ont été supprimées de votre jeu de données. Vous allez créer une autre version pour capturer cet état.

  10. Répétez les étapes 3 à 5 pour créer une nouvelle version, mais cette fois, saisissez Removing all invalid values comme description.

    Vos deux versions sont listées dans le panneau Versions et sont accessibles en mode lecture seule.

Résultats

Vous avez créé deux versions de votre préparation, afin de capturer l'état de la préparation à deux étapes différentes du processus de nettoyage. Vous pouvez choisir d'exporter l'une de ces versions, l'utiliser dans un Job Talend ou continuer à modifier l'état actuel de votre préparation.