Récupération de données plus nombreuses d'un jeu de données volumineux - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-02-21

Lorsque vous travaillez sur un jeu de données volumineux dans Talend Cloud Data Preparation, 50 000 lignes par exemple, seul un échantillon comprenant les 10 000 premières lignes s'affiche.

Vous pouvez commencer à préparer vos données et appliquer des fonctions, comme vous le feriez sur n'importe quel autre jeu de données. La différence est cependant notable lorsque vous appliquez un filtre à vos données. Puisque vous travaillez sur un échantillon, seules les lignes correspondantes parmi les 10 000 premières lignes seront récupérées. Vous pouvez cependant choisir d’appliquer le filtres aux 40 000 lignes restantes et d'affiner votre préparation en vous basant sur ce nouvel échantillon.

Procédure

  1. Cliquez sur l'icône de menu en haut à gauche de la grille et sélectionnez Display rows with invalid or empty values (Afficher les lignes ayant des valeurs invalides ou vides).
    Icône de Menu avec l'option Display rows with invalid or empty values (Afficher les lignes ayant des valeurs invalides ou vides) sélectionnée.

    Vous pouvez constater dans la barre de filtres que votre filtre a bien été appliqué et que seules les lignes correspondantes sont affichées dans la grille. Vous pouvez décider d'appliquer n'importe quel autre filtre. De plus, le fait de pouvoir appliquer un filtre sur une catégorie de données, même si aucune valeur ne correspond dans l'échantillon actuel, est également possible pour une colonne donnée. Cliquez sur l'icône de menu dans l'en-tête d'une colonne pour affiche les options disponibles.

    Vous pouvez également observer l'apparition du bouton Fetch more (En récupérer plus) dans la barre de filtres, indiquant que vous travaillez actuellement sur l'échantillon par défaut, et que d'autres lignes correspondent potentiellement à vos filtres.

  2. Cliquez sur Fetch more (En récupérer plus) pour récupérer plus de résultats correspondants à vos filtres.

    La boîte de dialogue Fetch additional rows (Récupérer des lignes supplémentaires) s'ouvre, dans laquelle vous pouvez observer le statut de la recherche de résultats.

    Boîte de dialogue Fetch additional rows (Récupérer des lignes supplémentaires) ouverte.

    Talend Cloud Data Preparation s'arrête automatiquement de chercher si la barre des 10 000 résultats est atteinte, ou si la fin du jeu de données est atteinte. Vous pouvez également interrompre la recherche et afficher les résultats trouvés jusque là. La grille s'affiche alors à nouveau, où les lignes récupérées forment votre nouvel échantillon de travail. Tous les filtres et fonctions utilisés à partir de maintenant ne s'appliqueront qu'à ce nouvel échantillon.

    Si les filtres que vous avez appliqués initialement ne correspondent à aucun résultat, vous pouvez supprimer vos filtres ou essayer de chercher des résultats dans l'intégralité du jeu de données.

    Filtre sans correspondance.
  3. Pour revenir à l'échantillon de départ, supprimez vos filtres.
    Cliquez sur la croix située dans chaque filtre ou bien cliquez sur l'icône représentant une poubelle pour supprimer vos filtres.

Résultats

La grille affiche de nouveau les 10 000 lignes de votre échantillon de départ et vous pouvez continuer à préparer vos données.