Avant de commencer
-
Vous avez précédemment créé une connexion au système stockant vos données source.
Ici, une connexion à une base de données.
-
Vous avez précédemment ajouté le jeu de données contenant vos données source.
Ici, une table de clients avec les champs de prénom, nom de famille, date d'inscription et salaire (téléchargez le fichier filter-python-customers.json depuis l'onglet Downloads dans le panneau de gauche de la page).
-
Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.
Ici, un fichier stocké dans HDFS.
Procédure
-
Cliquez sur ADD PIPELINE dans la page Pipelines. Votre nouveau pipeline s’ouvre.
-
Donnez-lui un nom significatif.
Exemple
Process Customers with Python
-
Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici une table de clients.
Exemple
-
Sélectionnez votre jeu de données et cliquez sur SELECT pour l’ajouter au pipeline.
Renommez-le si nécessaire.
-
Cliquez sur
et ajoutez un processeur Python au pipeline. Le panneau de Configuration s’affiche.
-
Donnez un nom significatif au processeur.
Exemple
aggregate name - convert to euros - calculate registration date
-
Dans la liste Map, sélectionnez Map.
-
Dans la zone Python code, saisissez :
date=input['RegistrationDate'].split("/")
year=date[2]
output['id'] = input['id']
output['fullname'] = input['Firstname'] + " " + input["Lastname"]
output['euro_revenue'] = int(input['Revenue']) * 0.83
output['number_year_registrated'] = 2019 - int(year)
Ce code vous permet :
-
de concaténer les champs de prénom et de nom de famille
-
convertir le salaire en euros
-
calculer le nombre d'années depuis l'inscription du client
-
Cliquez sur SAVE pour sauvegarder votre configuration.
-
Cliquez sur l'élément ADD DESTINATION du pipeline pour ouvrir le panneau vous permettant de sélectionner le jeu de données qui contiendra les données traitées.
Renommez-le si nécessaire.
-
(Facultatif) Examinez la prévisualisation du processeur Python Row afin de comparer vos données avant et après les opérations.
-
Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
-
Cliquez sur l'icône d'exécution
pour exécuter votre pipeline.
Résultats
Votre pipeline est en cours d’exécution, les données sont traitées selon les conditions spécifiées dans le code Python et la sortie est envoyée vers le système cible que vous avez indiqué.