Filtrer des données d'un fichier local et les scinder en deux sorties Amazon s3 - Cloud

Guide des connecteurs des applications Talend Cloud

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Administration et monitoring > Gestion des connexions
Création et développement > Création de Pipelines
EnrichPlatform
Talend Pipeline Designer

Ce scénario a pour objectif de vous aider à configurer et à utiliser des connecteurs dans un pipeline. Ce scénario doit être adapté en fonction de votre environnement et de votre cas d'utilisation.

Avant de commencer

  • Si vous souhaitez reproduire ce scénario, téléchargez le fichier local_file-to_s3.csv depuis l'onglet Téléchargements à gauche de la page. Le fichier contient des données concernant des achats d'utilisateurs, notamment leur enregistrement, le prix d'achat ou encore leur date de naissance.

Procédure

  1. Cliquez sur Connections > ADD CONNECTION.
  2. Dans le panneau qui s'ouvre, donnez un nom à votre connexion, ainsi qu'une description, si nécessaire.

    Exemple

    Local connection
  3. Sélectionnez votre moteur dans la liste Engine.
    Remarque : Si aucun Remote Engine Gen2 n'a été créé depuis Talend Cloud Management Console ou s'il existe mais semble indisponible, ce qui signifie qu'il n'est pas en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion (Connection type) dans la liste ou sauvegarder la nouvelle connexion. Les types de connexion disponibles dépendent du moteur sélectionné.
  4. Sélectionnez le type de connexion à créer.
    Ici, sélectionnez Local connection.
  5. Renseignez les propriétés de la connexion et cliquez sur ADD DATASET.
  6. Dans le panneau Add a new dataset, nommez votre jeu de données user purchases.
  7. Cliquez sur l'icône afin de parcourir votre système et de sélectionner le fichier local_file-to_s3.csv. Cliquez sur AUTO DETECT pour renseigner automatiquement les informations de format du fichier, puis cliquez sur VIEW SAMPLE pour visualiser un aperçu de l'échantillon du jeu de données.
  8. Cliquez sur VALIDATE pour sauvegarder votre jeu de données.
  9. Répétez l'opération pour ajouter la connexion Amazon S3 et les sorties S3 à utiliser comme destinations dans votre pipeline. Renseignez les propriétés de la connexion comme décrit dans Propriétés Amazon S3.
  10. Cliquez sur ADD PIPELINE dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  11. Donnez-lui un nom significatif.

    Exemple

    From local file to S3 - Filter by age
  12. Cliquez sur ADD SOURCE et sélectionnez votre jeu de données source, user purchases dans le panneau qui s'ouvre.
  13. Cliquez sur et ajoutez un processeur Filter au pipeline afin de filtrer les données utilisateurs et de leur donner un nom significatif. Le panneau de configuration s'ouvre.
  14. Donnez un nom significatif au processeur.

    Exemple

    filter on registered users
  15. Dans la zone FILTERS :
    1. Sélectionnez .registered dans la liste Input, car vous souhaitez filtrer sur l'enregistrement des utilisateurs.
    2. Sélectionnez NONE dans la liste Optionally select a function to apply, car vous ne souhaitez pas appliquer de fonction tout en filtrant les enregistrements.
    3. Sélectionnez == dans la liste Operator et saisissez TRUE dans le champ Value, car vous souhaitez filtrer sur les utilisateurs enregistrés.
  16. Cliquez sur SAVE pour sauvegarder votre configuration.
  17. Cliquez sur et ajoutez un processeur Date au pipeline afin de calculer l'âge des utilisateurs, selon leur date de naissance. Le panneau de configuration s'ouvre.
  18. Donnez un nom significatif au processeur.

    Exemple

    calculate user age
  19. Configurez le processeur :
    1. Sélectionnez Calculate time since dans la liste Function name, puisque vous souhaitez calculer l'âge des utilisateurs selon leur date de naissance.
    2. Sélectionnez .date_of_birth dans le champ Fields to process.
    3. Activez l'option Create new column pour afficher le résultat dans un nouveau champ.
    4. Sélectionnez Years dans la liste Time unit, sélectionnez Now dans le champ Until et saisissez dd/MM/yyyy dans le champ Set the date pattern car vous souhaitez calculer le nombre d'années jusqu'à la date actuelle, au format mois/jour/année.
  20. Cliquez sur SAVE pour sauvegarder votre configuration.
  21. (Facultatif) Consultez l'aperçu du processeur pour voir les âges calculés.
  22. Cliquez sur et ajoutez un autre processeur Filter au pipeline. Le panneau de configuration s'ouvre.
  23. Donnez un nom significatif au processeur.

    Exemple

    filter on users aged 60+
  24. Dans la zone FILTERS :
    1. Sélectionnez .since_date_of_birth_in_years dans la liste Input car vous souhaitez filtrer sur l'âge des utilisateurs.
    2. Sélectionnez NONE dans la liste Optionally select a function to apply, car vous ne souhaitez pas appliquer de fonction tout en filtrant les données.
    3. Sélectionnez >= dans la liste Operator et saisissez 60 dans le champ Value, car vous souhaitez filtrer sur les utilisateurs ayant au moins 60 ans.
  25. Cliquez sur SAVE pour sauvegarder votre configuration.
  26. Cliquez sur l'élément ADD DESTINATION dans le pipeline pour ouvrir le panneau vous permettant de sélectionner le premier jeu de données qui contiendra les données de sortie répondant au filtre (S3).
  27. Donnez un nom significatif à la destination, senior users par exemple.
  28. Cliquez sur SAVE pour sauvegarder votre configuration.
  29. Cliquez sur dans le processeur Filter pour ajouter une autre destination et ouvrez le panneau permettant de sélectionner le second jeu de données qui contiendra les données de sortie ne répondant pas au filtre (S3).
  30. Donnez un nom significatif à votre Destination, other users par exemple.
  31. (Facultatif) Consultez l'aperçu du processeur Filter pour voir les données après l'opération de filtre : il contient tous les utilisateurs enregistrés ayant 60 ans ou plus.
  32. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
  33. Cliquez sur l'icône d'exécution pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution. Les informations utilisateurs stockées dans votre fichier local ont bien été filtrées, l'âge des utilisateurs a été calculé et les flux de sortie sont envoyés dans le bucket S3 défini. Ces différentes sorties peuvent à présent être utilisées pour séparer les campagnes marketing ciblées, par exemple.