Récupérer une préparation et appliquer ses fonctions sur les données de votre pipeline - Cloud

Guide des processeurs de Talend Cloud Pipeline Designer

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Création et développement > Création de Pipelines

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

    Ici, une connexion à un bucket Amazon S3.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Ici, des données relatives à des client·es, notamment leur nom, leur date d'inscription, leur salaire, etc.

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un jeu de données de test sera utilisé pour stocker les logs de sortie.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Filter on Registration and Revenue
  3. Cliquez sur ADD SOURCE (AJOUTER UNE SOURCE) pour ouvrir le panneau permettant de sélectionner vos données source, ici une liste de clients, stockée dans un bucket S3.

    Exemple

  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur et ajoutez un processeur Run preparation au pipeline. Le panneau de Configuration s’affiche.
  6. Donnez un nom significatif au processeur.

    Exemple

    run customer preparation (exécuter la préparation client·e)
  7. Dans le champ Preparation (Préparation) de l'onglet Configuration, cliquez sur SELECT (SÉLECTIONNER). La fenêtre de sélection de préparation s'ouvre :
    1. Sélectionnez la préparation et la version de la préparation à récupérer afin d'appliquer ses fonctions sur le pipeline.
      Remarque : Les fonctions relatives aux types sémantiques ou les fonctions qui ne sont pas compatibles avec les Jobs Spark et les exports HDFS ou S3 ne sont pas supportés dans Talend Cloud Pipeline Designer.
    2. Cliquez sur SELECT (SÉLECTIONNER) pour récupérer la préparation sélectionnée dans votre pipeline.
      Ici vous pouvez voir que la fonction de préparation modifiant les enregistrements en majuscules a été appliquée sur les prénoms et les noms de famille.
  8. Cliquez sur et ajoutez un processeur Filter au pipeline. Le panneau de Configuration s’affiche.
  9. Donnez un nom significatif au processeur.

    Exemple

    filter on revenue > 50000 (filtre sur le salaire > 50000)
  10. Dans la zone Filter :
    1. Sélectionnez .Revenue dans la liste Input, pour filtrer les clients en se basant sur cette valeur.
    2. Sélectionnez NONE dans la liste Optionally select a function to apply, car vous ne souhaitez pas appliquer de fonction tout en filtrant les enregistrements.
    3. Sélectionnez > dans la liste Operator (Opérateur) et saisissez 50000 dans la liste Value (Valeur) car vous souhaitez filtrer sur les client·es dont le salaire est supérieur à 50 000.
  11. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  12. Cliquez sur l'élément ADD DESTINATION et sélectionnez le jeu de données Test qui contiendra les logs de sortie.
    Renommez-le si nécessaire.
  13. (Facultatif) Consultez l'aperçu du processeur Filter pour voir les données après l'opération de filtre.
  14. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
  15. Cliquez sur l'icône d'exécution pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution. Les fonctions de préparation (passer les enregistrements en majuscules) ont été appliquées aux données client·es. Les données sont filtrées selon les conditions définies et les logs sont écrits dans la destination sélectionnée.