Extraire un échantillon de taille fixe d'un jeu de données concernant des conducteur·trices

Un pipeline avec une source Test, un processeur Data sampling et une destination FTP.

Avant de commencer

Vous avez précédemment créé une connexion au système stockant vos données source.

Ici, une connexion de test.
Vous avez précédemment ajouté le jeu de données contenant vos données source.

Téléchargez et extrayez le fichier sampling-drivers.zip. Il contient un jeu de données concernant des mauvais·es conducteur·trices, notamment le pourcentage de conducteur·trices impliqué·es dans des collisions mortelles liées à la vitesse, l'alcool, une distraction, ou encore des informations concernant les assurances des voitures.
Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

Ici, un dossier de sortie stocké sur un serveur FTP.

Procédure

Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
Donnez-lui un nom significatif.
Exemple
Extract a subset of data about drivers
Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les données relatives aux collisions mortelles et aux assurances.
Exemple
Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
Renommez-le si nécessaire.
Cliquez sur le bouton et ajoutez un processeur Data sampling au pipeline. Le panneau de configuration s'ouvre.
Donnez un nom significatif au processeur.
Exemple
extract 5 records
Dans la zone Configuration :
1. Saisissez 5 dans le champ Number of records (Nombre d'enregistrements), car vous souhaitez créer un sous-jeu du jeu de données original avec cinq enregistrements sélectionnés de manière aléatoire.
Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération.

Vous pouvez constater qu'un sous-jeu de données contenant 5 enregistrements sélectionnés aléatoirement a été créé dans la sortie.
Cliquez sur ADD DESTINATION (AJOUTER UNE DESTINATION) et sélectionnez le dossier FTP qui contiendra votre sous-jeu de données.
Renommez-le si nécessaire.
Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution, le sous-jeu de données est créé selon le nombre d'enregistrements spécifié et la sortie est envoyée vers le dossier FTP défini. Ces sous-jeux de données peuvent être utilisés par des data scientists pour des analyses de prédictions.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici