Traiter des chaînes de caractères relatives à des cultures récoltées

Un pipeline avec une source S3, deux processeurs Strings et une destination S3.

Avant de commencer

Vous avez précédemment créé une connexion au système stockant vos données source.

Ici, une connexion Amazon S3.
Vous avez précédemment ajouté le jeu de données contenant vos données source.

Téléchargez le fichier string-crops.csv. Il contient un jeu de données concernant des cultures récoltées au Mali, ainsi que les types de cultures, la valeur de production, les zones de récolte, etc.
Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

Ici, un jeu de données stocké dans le même bucket S3.

Procédure

Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
Donnez-lui un nom significatif.
Exemple
Process strings about harvested crops
Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les données relatives aux cultures récoltées au Mali en 2005.
Exemple
Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
Renommez-le si nécessaire.
Cliquez sur le bouton et ajoutez un processeur Strings au pipeline. Le panneau de configuration s'ouvre.
Donnez un nom significatif au processeur.
Exemple
change crop types to upper case
Dans la zone Configuration :
1. Sélectionnez Change to upper case dans la liste Function name.
2. Sélectionnez .crop_parent dans la liste Fields to process, car vous souhaitez convertir les valeurs des types de cultures en majuscules.
Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération.
Cliquez sur le bouton et ajoutez un processeur Strings au pipeline. Le panneau de configuration s'ouvre.
Donnez un nom significatif au processeur.
Exemple
match crop IDs with IDs
Dans la zone Configuration :
1. Sélectionnez Match similar text dans la liste Function name.
2. Sélectionnez .crop dans la liste Fields to process.
3. Sélectionnez Other column dans la liste Use with et .id dans la liste Column, car vous souhaitez comparer l'identifiant du nom de la culture à l'identifiant de l'enregistrement.
4. Saisissez 0 dans le champ Fuzziness, car vous souhaitez extraire les correspondances exactes entre les deux valeurs de champs.
Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération. Vous pouvez voir une nouvelle colonne crop_matches dans laquelle les correspondances exactes ont une valeur true et les identifiants sans correspondance ont une valeur false.
Cliquez sur ADD DESTINATION (AJOUTER UNE DESTINATION) et sélectionnez le jeu de données qui contiendra les données traitées.
Renommez-le si nécessaire.
Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les chaînes de caractères sélectionnées ont été traitées et le flux de sortie est envoyé au bucket S3 indiqué.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici