Traiter des prospects dans Amazon S3 et les charger dans MySQL - Cloud

Guide des connecteurs des applications Talend Cloud

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Administration et monitoring > Gestion des connexions
Création et développement > Création de Pipelines
EnrichPlatform
Talend Pipeline Designer

Ce scénario a pour objectif de vous aider à configurer et à utiliser des connecteurs dans un pipeline. Ce scénario doit être adapté en fonction de votre environnement et de votre cas d'utilisation.

Avant de commencer

  • Si vous souhaitez reproduire ce scénario, téléchargez le fichier s3_mysql-lead_campaign.csv depuis l'onglet Téléchargements à gauche de la page.

Procédure

  1. Cliquez sur Connections > ADD CONNECTION.
  2. Dans le panneau qui s'ouvre, donnez un nom à votre connexion, ainsi qu'une description, si nécessaire.

    Exemple

    S3
  3. Sélectionnez votre moteur dans la liste Engine.
    Remarque : Si aucun Remote Engine Gen2 n'a été créé depuis Talend Cloud Management Console ou s'il existe mais semble indisponible, ce qui signifie qu'il n'est pas en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion (Connection type) dans la liste ou sauvegarder la nouvelle connexion. Les types de connexion disponibles dépendent du moteur sélectionné.
  4. Sélectionnez le type de connexion à créer.
    Ici, sélectionnez S3 connection.
  5. Renseignez les propriétés de la connexion pour accéder à votre compte S3, comme décrit dans Propriétés Amazon S3, vérifiez la connexion et cliquez sur ADD DATASET.
  6. Dans le panneau Add a new dataset, nommez votre jeu de données lead generation campaign.
  7. Sélectionnez S3 dans la liste des connexions.
  8. Renseignez les propriétés requises pour accéder au fichier situé dans votre bucket S3 bucket (au format CSV, avec le séparateur de champs espace, sans en-tête) et cliquez sur VIEW SAMPLE pour voir un aperçu de l'échantillon de données.
  9. Cliquez sur VALIDATE pour sauvegarder votre jeu de données.
  10. Répétez l'opération pour ajouter la connexion MySQL et les jeux de données des tables MySQL à utiliser comme Destinations dans votre pipeline. Renseignez les propriétés de la connexion comme décrit dans Propriétés MySQL.
  11. Cliquez sur ADD PIPELINE dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  12. Donnez-lui un nom significatif.

    Exemple

    From S3 to MySQL - Process Leads
  13. Cliquez sur ADD SOURCE et sélectionnez votre jeu de données source, lead generation campaign dans le panneau qui s'ouvre.
  14. Cliquez sur et ajoutez un processeur Field Selector au pipeline, afin de sélectionner des champs spécifiques et de leur donner un nom significatif. Le panneau de configuration s'ouvre.
  15. Donnez un nom significatif au processeur.

    Exemple

    select countries and revenues
  16. Dans la zone SELECTORS :
    1. Sélectionnez .field2 dans la liste Input et saisissez .field2 dans la liste Output, puisque vous souhaitez sélectionner les champs correspondant aux pays des clients.
    2. Ajoutez un nouvel élément (NEW ELEMENT) et sélectionnez .field7 dans la liste Input, puis saisissez revenue dans le champ Output, car vous souhaitez sélectionner les champs correspondant aux salaires des clients.
  17. Cliquez sur SAVE pour sauvegarder votre configuration.
  18. Cliquez sur et ajoutez un processeur Filter au pipeline afin de filtrer les enregistrements et conserver uniquement les clients ayant renseigné leur salaire durant la campagne marketing. Le panneau de configuration s'ouvre.
  19. Donnez un nom significatif au processeur.

    Exemple

    remove empty revenues
  20. Dans la zone Filter :
    1. Sélectionnez .revenue dans la liste Input, puisque vous souhaitez traiter les salaires des clients.
    2. Sélectionnez NONE dans la liste Optionally select a function to apply, car vous ne souhaitez pas appliquer de fonction tout en filtrant les enregistrements.
    3. Sélectionnez != dans la liste Operator et saisissez N/A dans le champ Value car vous souhaitez filtrer les clients ayant fourni leur salaire.
  21. Cliquez sur et ajoutez un processeur Type Converter au pipeline afin de convertir le format des champs de salaires (format string). Le panneau de configuration s'ouvre.
  22. Donnez un nom significatif au processeur.

    Exemple

    convert revenue formats
  23. Dans la zone CONVERTERS, sélectionnez .revenue dans la liste Field path et Double dans la liste Output type, puisque vous souhaitez convertir le champ de type String contenant les informations de salaire en un champ de type Double.
  24. Cliquez sur SAVE pour sauvegarder votre configuration.
  25. Cliquez sur et ajoutez un processeur Aggregate au pipeline. Le panneau de configuration s'ouvre.
  26. Donnez un nom significatif au processeur.

    Exemple

    count average revenue by country
  27. Dans la zone GROUP BY, sélectionnez le champ à utiliser pour votre jeu d'agrégation, ici .country.
  28. Dans la zone OPERATIONS :
    1. Sélectionnez .revenue dans la liste Field path et Average dans la liste Operation.
    2. Nommez le champ généré (Output field name), average_revenue par exemple.
  29. Cliquez sur SAVE pour sauvegarder votre configuration.
  30. Cliquez sur l'élément ADD DESTINATION dans le pipeline pour ouvrir le panneau vous permettant de sélectionner le jeu de données qui contiendra vos données de sortie (MySQL).
  31. Donnez un nom significatif à la Destination, load in MySQL table par exemple.
  32. Cliquez sur SAVE pour sauvegarder votre configuration.
  33. (Facultatif) Cliquez sur l'icône de prévisualisation après le processeur Aggregate afin de prévisualiser les données calculées après l'opération d'agrégation : le salaire moyen par pays.
  34. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
  35. Cliquez sur l'icône d'exécution pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les informations des prospects stockées dans S3 ont été nettoyées, les salaires ont été agrégés par pays et les flux de sortie sont envoyés dans les tables cible MySQL définies.