Récupération de données plus nombreuses d'un jeu de données volumineux - 7.2

Guide d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Lorsque vous travaillez sur un jeu de données volumineux dans Talend Data Preparation, 50 000 lignes par exemple, seul un échantillon comprenant les 10 000 premières lignes s'affiche, comme vous pouvez le voir dans les paramètres du jeu de données :

Vous pouvez commencer à préparer vos données et appliquer des fonctions, comme vous le feriez sur n'importe quel autre jeu de données.

La différence est cependant notable lorsque vous appliquez un filtre à vos données. Puisque vous travaillez sur un échantillon, seules les lignes correspondantes parmi les 10 000 premières lignes seront récupérées. Vous pouvez cependant choisir d’appliquer le filtres aux 40 000 lignes restantes et d'affiner votre préparation en vous basant sur ce nouvel échantillon.

Procédure

  1. Cliquez sur l'icône de menu en haut à gauche de la grille et sélectionnez Display rows with invalid or empty values (Afficher les lignes ayant des valeurs invalides ou vides).

    Vous pouvez constater dans la barre de filtres que votre filtre a bien été appliqué et seules les lignes correspondantes sont affichées dans la grille. Vous pouvez décider d'appliquer n'importe quel autre filtre. De plus, le fait de pouvoir appliquer un filtre sur une catégorie de données, même si aucune valeur ne correspond dans l'échantillon actuel, est également possible pour une colonne donnée. Cliquez sur l'icône de menu dans l'en-tête d'une colonne pour affiche les options disponibles.

    Vous pouvez également observer l'apparition du bouton Fetch more (En récupérer plus) dans la barre de filtres, indiquant que vous travaillez actuellement sur l'échantillon par défaut, et que d'autres lignes correspondent potentiellement à vos filtres.

  2. Cliquez sur Fetch more (En récupérer plus) pour récupérer plus de résultats correspondants à vos filtres.

    La boîte de dialogue Fetch additional rows (Récupérer des lignes supplémentaires) s'ouvre, dans laquelle vous pouvez observer le statut de la recherche de résultats.

    Talend Data Preparation s'arrête automatiquement de chercher si la barre des 10 000 résultats est atteinte, ou si la fin du jeu de données est atteinte. Vous pouvez également interrompre la recherche et afficher les résultats trouvés jusque là. La grille s'affiche alors à nouveau, où les lignes récupérées forment votre nouvel échantillon de travail. Tous les filtres et fonctions utilisés à partir de maintenant ne s'appliqueront qu'à ce nouvel échantillon.

    Si les filtres que vous avez appliqués initialement ne correspondent à aucun résultat, vous pouvez supprimer vos filtres ou essayer de chercher des résultats dans l'intégralité du jeu de données.

  3. Pour revenir à l'échantillon de départ, supprimez vos filtres.
    Cliquez sur la croix située dans chaque filtre ou bien cliquez sur l'icône représentant une poubelle pour supprimer vos filtres.

Résultats

La grille affiche de nouveau les 10 000 lignes de votre échantillon de départ et vous pouvez continuer à préparer vos données.