Extraire un échantillon de taille fixe d'un jeu de données concernant des conducteur·trices - Cloud

Guide des processeurs de Talend Cloud Pipeline Designer

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Création et développement > Création de Pipelines

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

    Ici, une connexion de test.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Ici, un jeu de données concernant des mauvais·es conducteur·trices, notamment le pourcentage de conducteur·trices impliqué·es dans des collisions mortelles liées à la vitesse, l'alcool, une distraction, ou encore des informations concernant les assurances des voitures, etc (téléchargez le fichier sampling-drivers.csv depuis l'onglet Téléchargements du panneau de gauche de cette page).

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un dossier de sortie stocké sur un serveur FTP.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Extract a subset of data about drivers
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les données relatives aux collisions mortelles et aux assurances.

    Exemple

  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur et ajoutez un processeur Data sampling au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    extract 5 records
  7. Dans la zone Configuration :
    1. Saisissez 5 dans le champ Number of records (Nombre d'enregistrements), car vous souhaitez créer un sous-jeu du jeu de données original avec cinq enregistrements sélectionnés de manière aléatoire.
  8. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération.

    Vous pouvez constater qu'un sous-jeu de données contenant 5 enregistrements sélectionnés aléatoirement a été créé dans la sortie.

  9. Cliquez sur l'élément ADD DESTINATION et sélectionnez le dossier FTP qui contiendra le sous-jeu de données.
    Renommez-le si nécessaire.
  10. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
  11. Cliquez sur l'icône d'exécution pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution, le sous-jeu de données est créé selon le nombre d'enregistrements spécifié et la sortie est envoyée vers le dossier FTP défini. Ces sous-jeux de données peuvent être utilisés par des data scientists pour des analyses de prédictions.