Récupération de données plus nombreuses d'un jeu de données volumineux - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Lorsque vous travaillez sur un jeu de données volumineux dans Talend Data Preparation, 50 000 lignes par exemple, seul un échantillon comprenant les 10 000 premières lignes s'affiche, comme vous pouvez le voir dans les paramètres du jeu de données :

Vous pouvez commencer à préparer vos données et appliquer des fonctions, comme vous le feriez sur n'importe quel autre jeu de données.

La différence notable a lieu lorsque vous appliquez un filtre à vos données. Puisque vous travaillez sur un échantillon, seuls les lignes correspondantes parmi les 10 000 premières lignes seront récupérées. Vous avez cependant la possibilité d'aller puiser plus de résultats, parmi les 40 000 lignes restantes et d'affiner votre préparation en vous basant sur ce nouvel échantillon.

Procédure

  1. Cliquez sur l'icône de menu en haut à gauche de la grille et sélectionnez Display rows with invalid or empty values (Afficher les lignes ayant des valeurs invalides ou vides).

    Vous pouvez constater dans la barre de filtres que votre filtre a bien été appliqué et seules les lignes correspondantes sont affichées dans la grille. Vous pouvez décider d'appliquer n'importe quel autre filtre. De plus, le fait de pouvoir appliquer un filtre sur une catégorie de données, même si aucune valeur ne correspond dans l'échantillon actuel, est également possible pour une colonne donnée. Cliquez sur l'icône de menu dans l'en-tête d'une colonne pour affiche les options disponibles.

    Vous pouvez également observer l'apparition du bouton Fetch more (En récupérer plus) dans la barre de filtres, indiquant que vous travaillez actuellement sur l'échantillon par défaut, et que d'autres lignes correspondent potentiellement à vos filtres.

  2. Cliquez sur Fetch more (En récupérer plus) pour récupérer plus de résultats correspondants à vos filtres.

    La boîte de dialogue Fetch additional rows (Récupérer des lignes supplémentaires) s'ouvre, dans laquelle vous pouvez observer le statut de la recherche de résultats.

    Talend Data Preparation s'arrête automatiquement de chercher si la barre des 10 000 résultats est atteinte, ou si la fin du jeu de données est atteinte. Vous pouvez également interrompre la recherche et afficher les résultats trouvés jusque là. La grille s'affiche alors à nouveau, où les lignes récupérées forment votre nouvel échantillon de travail. Tous les filtres ou fonctions utilisés à partir de maintenant ne s'appliqueront qu'à ce nouvel échantillon.

    Si les filtres que vous avez appliqués initialement ne correspondent à aucun résultat, vous pouvez supprimer vos filtres ou essayer de chercher des résultats dans l'intégralité du jeu de données.

  3. Pour revenir à l'échantillon de départ, supprimez vos filtres.
    Cliquez sur la croix située dans chaque filtre ou bien cliquez sur l'icône représentant une poubelle pour supprimer vos filtres.

Résultats

La grille affiche de nouveau les 10 000 lignes de votre échantillon de départ et vous pouvez continuer à préparer vos données.