Création de versions de préparation - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-02-21

Dans l'exemple suivant, vous allez effectuer quelques étapes de préparation sur vos données, créer des versions à deux moments différents et apprendre à passer d'une version à l'autre, ainsi que retourner à l'était courant de votre préparation.

Le jeu de données utilisé ici contient des données clients telles que les noms, métiers, numéros de téléphone, adresses e-mail mais nécessite un nettoyage. Les colonnes contenant les noms des clients comprennent des incohérences de format, comme des espaces blancs en début et fin de champs et une casse incohérente. De plus, des numéros de téléphone et des adresses e-mail sont invalides.

Jeu de données contenant des données client·es.

Lors de votre travail sur la préparation, vous allez créer deux versions, reflétant l'état de votre préparation à deux moments différents.

Procédure

  1. Cliquez sur l'en-tête de la colonne First_name et, tout en appuyant sur la touche Ctrl, cliquez sur l'en-tête de la colonne Last_name.

    Le contenu des deux colonnes est sélectionné.

  2. Appliquez les fonctions Remove trailing and leading characters (Supprimer les caractères en début et fin de champ) et Change to title case (Convertir en casse de titre) pour supprimer les espaces blancs et harmoniser la casse.
    Fonctions Remove trailing and leading characters (Supprimer les caractères en début et fin de champ) et Change to title case (Convertir en casse de titre) appliquées.

    La suppression de ces erreurs de format constitue la première grande étape de votre préparation, vous allez donc créer une version pour conserver une trace de ces modifications.

  3. Cliquez sur le bouton Manage versions (Gérer les versions) situé dans la barre en haut.

    Le panneau des fonctions Functions est remplacé par le panneau Versions (Versions). Ce panneau est vide, puisqu'aucune version n'existe encore pour cette préparation.

    Panneau des versions ouvert.

    L'ajout de nouvelles versions via le bouton Manage versions (Gérer les versions) est une fonctionnalité disponible uniquement pour les utilisateurs et utilisatrices de Talend Data Preparation ayant des droits d’administrateur. les autres utilisateurs et utilisatrices·rices peuvent uniquement consulter les versions existantes en mode lecture seule.

  4. Cliquez sur le bouton Add version (Ajouter une version).
  5. Saisissez une description rapide de la version, dans le champ correspondant, Fixing formatting errors in names dans cet exemple, puis cliquez sur Add version.
    Panneau des versions ouvert.

    Cette version est à présent listée dans le panneau Versions (Versions) avec son horodatage et la description précédemment saisie.

    Panneau des versions ouvert avec un numéro de version.
  6. Cliquez sur la version pour y accéder en mode lecture seule.

    Vous pouvez appliquer des filtres et parcourir des données, mais vous ne pouvez appliquer de fonction.

  7. Pour quitter le mode lecture seule et retourner à votre préparation de données, cliquez sur le bouton Switch to current state (Passer à l'état actuel), situé dans la barre en haut.

    Vous êtes à nouveau en mode modification.

  8. Pour nettoyer les entrées invalides restantes des colonnes phone et email, cliquez sur l'icône de menu dans le coin supérieur gauche de la grille et sélectionnez Display rows with invalid or empty values (Afficher les lignes ayant des valeurs invalides ou vides).
  9. Dans le panneau des fonctions, sélectionnez la fonction Delete these filtered rows (Supprimer ces lignes filtrées).
    Option Delete these filtered rows (Supprimer ces lignes filtrées).

    Toutes les valeurs invalides ont été supprimées de votre jeu de données. Vous allez créer une autre version pour capturer cet état.

  10. Répétez les étapes 3 à 5 pour créer une nouvelle version, mais cette fois, saisissez Removing all invalid values comme description.

    Vos deux versions sont listées dans le panneau Versions (Versions) et sont accessibles en mode lecture seule.

    Panneau des versions ouvert avec deux numéros de version.

Résultats

Vous avez créé deux versions de votre préparation, afin de capturer l'état de la préparation à deux étapes différentes du processus de nettoyage. Vous pouvez choisir d'exporter l'une de ces versions, l'utiliser dans un Job Talend ou continuer à modifier l'état actuel de votre préparation.