Effectuer plusieurs opérations sur des enregistrements clients lors de l'utilisation de Python - Cloud

Guide des processeurs de Talend Cloud Pipeline Designer

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Pipeline Designer
task
Création et développement > Création de Pipelines

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

    Ici, une connexion à une base de données.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Ici, une table de clients avec les champs de prénom, nom de famille, date d'inscription et salaire (téléchargez le fichier filter-python-customers.json depuis l'onglet Downloads dans le panneau de gauche de la page).

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un fichier stocké dans HDFS.

Procédure

  1. Cliquez sur ADD PIPELINE dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Process Customers with Python
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici une table de clients.

    Exemple

  4. Sélectionnez votre jeu de données et cliquez sur SELECT pour l’ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur et ajoutez un processeur Python au pipeline. Le panneau de Configuration s’affiche.
  6. Donnez un nom significatif au processeur.

    Exemple

    aggregate name - convert to euros - calculate registration date
  7. Dans la liste Map, sélectionnez Map.
  8. Dans la zone Python code, saisissez  :
    date=input['RegistrationDate'].split("/")
    year=date[2]
    
    output['id'] = input['id']
    output['fullname'] = input['Firstname'] + " " + input["Lastname"]
    output['euro_revenue'] = int(input['Revenue']) * 0.83
    output['number_year_registrated'] = 2019 - int(year)
    Ce code vous permet :
    • de concaténer les champs de prénom et de nom de famille

    • convertir le salaire en euros

    • calculer le nombre d'années depuis l'inscription du client

  9. Cliquez sur SAVE pour sauvegarder votre configuration.
  10. Cliquez sur l'élément ADD DESTINATION du pipeline pour ouvrir le panneau vous permettant de sélectionner le jeu de données qui contiendra les données traitées.
    Renommez-le si nécessaire.
  11. (Facultatif) Examinez la prévisualisation du processeur Python Row afin de comparer vos données avant et après les opérations.
  12. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
  13. Cliquez sur l'icône d'exécution pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution, les données sont traitées selon les conditions spécifiées dans le code Python et la sortie est envoyée vers le système cible que vous avez indiqué.