Filtrer des données d'un fichier local et les scinder en deux sorties Amazon S3 - Cloud

Guide des connecteurs des applications Talend Cloud

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
Administration et monitoring > Gestion des connexions
Création et développement > Création de Pipelines
Last publication date
2024-03-21

Ce scénario a pour objectif de vous aider à configurer et à utiliser des connecteurs dans un pipeline. Ce scénario doit être adapté en fonction de votre environnement et de votre cas d'utilisation.

Avant de commencer

  • Si vous souhaitez reproduire ce scénario, téléchargez et extrayez le fichier local_file-to_s3.zip. Le fichier contient des données concernant des achats d'utilisateurs, notamment leur enregistrement, le prix d'achat ou encore leur date de naissance.

Procédure

  1. Cliquez sur Connections (Connexions) > Add connection (Ajouter une connexion).
  2. Dans le panneau qui s'ouvre, sélectionnez le type de connexion à créer.

    Exemple

    Local connection
  3. Sélectionnez votre moteur dans la liste Engine.
    Remarque :
    • Il est recommandé d'utiliser Moteur distant Gen2 plutôt que Moteur Cloud pour le design pour un traitement avancé des données.
    • Si aucun Moteur distant Gen2 n'a été créé depuis Talend Management Console ou s'il existe mais semble indisponible, ce qui signifie qu'il n'est pas en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion (Connection type) dans la liste ou sauvegarder la nouvelle connexion.
    • Les types de connexion disponibles dépendent du moteur sélectionné.
  4. Sélectionnez le type de connexion à créer.
    Ici, sélectionnez Local connection.
  5. Renseignez les propriétés de la connexion et cliquez sur ADD DATASET.
  6. Dans le panneau Add a new dataset, nommez votre jeu de données user purchases.
  7. Cliquez sur l'icône afin de parcourir votre système et de sélectionner le fichier local_file-to_s3.csv. Cliquez sur Auto detect (Détection auto) pour renseigner automatiquement les informations de format du fichier, puis cliquez sur View sample (Voir l'échantillon) pour visualiser un aperçu de l'échantillon du jeu de données.
  8. Cliquez sur Validate (Valider) pour sauvegarder votre jeu de données.
  9. Répétez l'opération pour ajouter la connexion Amazon S3 et les sorties S3 à utiliser comme destinations dans votre pipeline. Renseignez les propriétés de la connexion comme décrit dans Propriétés Amazon S3.
  10. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  11. Donnez-lui un nom significatif.

    Exemple

    From local file to S3 - Filter by age
  12. Cliquez sur ADD SOURCE et sélectionnez votre jeu de données source, user purchases dans le panneau qui s'ouvre.
  13. Cliquez sur et ajoutez un processeur Filter au pipeline afin de filtrer les données utilisateurs·rices et de leur donner un nom significatif. Le panneau de configuration s'ouvre.
  14. Donnez un nom significatif au processeur.

    Exemple

    filter on registered users
  15. Dans la zone Filters (Filtres) :
    1. Sélectionnez .registered dans la liste Input, car vous souhaitez filtrer sur l'enregistrement des utilisateurs et des utilisatrices.
    2. Sélectionnez None (Aucun(e)) dans la liste Optionally select a function to apply (Sélectionnez une fonction facultative à appliquer, car vous ne souhaitez pas appliquer de fonction tout en filtrant les données.
    3. Sélectionnez == dans la liste Operator et saisissez TRUE dans le champ Value, car vous souhaitez filtrer sur les utilisateurs et utilisatrices enregistré·e·s.
  16. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  17. Cliquez sur et ajoutez un processeur Date au pipeline afin de calculer l'âge des utilisateurs et des utilisatrices, selon leur date de naissance. Le panneau de configuration s'ouvre.
  18. Donnez un nom significatif au processeur.

    Exemple

    calculate user age
  19. Configurez le processeur :
    1. Sélectionnez Calculate time since dans la liste Function name, puisque vous souhaitez calculer l'âge des utilisateurs et des utilisatrices selon leur date de naissance.
    2. Sélectionnez .date_of_birth dans le champ Fields to process.
    3. Activez l'option Create new column (Créer une colonne) pour afficher le résultat dans un nouveau champ. Nommez le champ age.
    4. Sélectionnez Years dans la liste Time unit, sélectionnez Now dans le champ Until et saisissez dd/MM/yyyy dans le champ Set the date pattern car vous souhaitez calculer le nombre d'années jusqu'à la date actuelle, au format mois/jour/année.
  20. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  21. (Facultatif) Consultez l'aperçu du processeur pour voir les âges calculés.
  22. Cliquez sur et ajoutez un autre processeur Filter au pipeline. Le panneau de configuration s'ouvre.
  23. Donnez un nom significatif au processeur.

    Exemple

    filter on users aged 60+
  24. Dans la zone Filters (Filtres) :
    1. Sélectionnez .age dans la liste Input, car vous souhaitez filtrer sur l'âge des utilisateurs et des utilisatrices.
    2. Sélectionnez None (Aucun(e)) dans la liste Optionally select a function to apply (Sélectionnez une fonction facultative à appliquer, car vous ne souhaitez pas appliquer de fonction tout en filtrant les données.
    3. Sélectionnez >= dans la liste Operator et saisissez 60 dans le champ Value, car vous souhaitez filtrer sur les utilisateurs et utilisatrices ayant au moins 60 ans.
  25. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  26. Cliquez sur l'élément ADD DESTINATION dans le pipeline pour ouvrir le panneau vous permettant de sélectionner le premier jeu de données qui contiendra les données de sortie répondant au filtre (S3).
  27. Donnez un nom significatif à votre destination, older users par exemple.
  28. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  29. Cliquez sur dans le processeur Filter pour ajouter une autre destination et ouvrez le panneau permettant de sélectionner le second jeu de données qui contiendra les données de sortie ne répondant pas au filtre (S3).
  30. Donnez un nom significatif à votre Destination, other users par exemple.
  31. (Facultatif) Consultez l'aperçu du processeur Filter pour voir les données après l'opération de filtre : il contient tous les utilisateurs et utilisatrices enregistré·e·s ayant 60 ans ou plus.
  32. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  33. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution. Les nombre d'utilisateurs et d'utilisatrices connecté·e·s stockées dans votre fichier local ont bien été filtrées, l'âge des utilisateurs et des utilisatrices a été calculé et les flux de sortie sont envoyés dans le bucket S3 défini. Ces différentes sorties peuvent à présent être utilisées pour séparer les campagnes marketing ciblées, par exemple.