Accéder au contenu principal Passer au contenu complémentaire

Extraire un échantillon de taille fixe d'un jeu de données concernant des conducteur·trices

Un pipeline avec une source Test, un processeur Data sampling et une destination FTP.

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

    Ici, une connexion de test.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Téléchargez et extrayez le fichier sampling-drivers.zip. Il contient un jeu de données concernant des mauvais·es conducteur·trices, notamment le pourcentage de conducteur·trices impliqué·es dans des collisions mortelles liées à la vitesse, l'alcool, une distraction, ou encore des informations concernant les assurances des voitures.

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un dossier de sortie stocké sur un serveur FTP.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Extract a subset of data about drivers
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les données relatives aux collisions mortelles et aux assurances.

    Exemple

    Aperçu d'un échantillon de données concernant des assurances.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Data sampling au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    extract 5 records
  7. Dans la zone Configuration :
    1. Saisissez 5 dans le champ Number of records (Nombre d'enregistrements), car vous souhaitez créer un sous-jeu du jeu de données original avec cinq enregistrements sélectionnés de manière aléatoire.
  8. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération.

    Vous pouvez constater qu'un sous-jeu de données contenant 5 enregistrements sélectionnés aléatoirement a été créé dans la sortie.

    Aperçu du processeur Data sampling après extraction de cinq enregistrements aléatoires depuis le jeu de données source.
  9. Cliquez sur ADD DESTINATION (AJOUTER UNE DESTINATION) et sélectionnez le dossier FTP qui contiendra votre sous-jeu de données.
    Renommez-le si nécessaire.
  10. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  11. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution, le sous-jeu de données est créé selon le nombre d'enregistrements spécifié et la sortie est envoyée vers le dossier FTP défini. Ces sous-jeux de données peuvent être utilisés par des data scientists pour des analyses de prédictions.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !