Traiter des statistiques stockées dans Google Cloud Storage et charger les données dans Amazon S3 - Cloud

Guide des connecteurs des applications Talend Cloud

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Administration et monitoring > Gestion des connexions
Création et développement > Création de Pipelines
EnrichPlatform
Talend Pipeline Designer

Ce scénario a pour objectif de vous aider à configurer et à utiliser des connecteurs dans un pipeline. Ce scénario doit être adapté en fonction de votre environnement et de votre cas d'utilisation.

Avant de commencer

  • Si vous souhaitez reproduire ce scénario, téléchargez le fichier gcstorage_s3_nyc_stats.xlsx depuis l'onglet Downloads du panneau de gauche de cette page (ce fichier est un extrait du jeu de données libre d'accès nyc-park-crime-stats-q4-2019.xlsx de New York City).

Procédure

  1. Cliquez sur Connections > ADD CONNECTION.
  2. Dans le panneau qui s'ouvre, donnez un nom à votre connexion, ainsi qu'une description, si nécessaire.

    Exemple

    Google Cloud Storage
  3. Sélectionnez votre moteur dans la liste Engine.
    Remarque : Si aucun Remote Engine Gen2 n'a été créé depuis Talend Cloud Management Console ou s'il existe mais semble indisponible, ce qui signifie qu'il n'est pas en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion (Connection type) dans la liste ou sauvegarder la nouvelle connexion. Les types de connexion disponibles dépendent du moteur sélectionné.
  4. Sélectionnez le type de connexion à créer.
    Sélectionnez Google Cloud Storage.
  5. Renseignez les identifiants JSON requis pour accéder à votre compte Google Cloud, comme décrit dans Propriétés Google Cloud Storage, vérifiez la connexion et cliquez sur ADD DATASET.
  6. Dans le panneau Add a new dataset, nommez votre jeu de données NYC park crime stats crime.
  7. Renseignez les propriétés requises pour accéder au fichier situé dans votre bucket Google Cloud Storage (nom du bucket, nom du fichier, format, etc.) et cliquez sur VIEW SAMPLE pour voir un aperçu de l'échantillon du jeu de données.
  8. Cliquez sur VALIDATE pour sauvegarder votre jeu de données.
  9. Répétez l'opération pour ajouter la connexion à S3 et le jeu de données à utiliser comme destination dans votre pipeline.
  10. Cliquez sur ADD PIPELINE dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  11. Cliquez sur ADD SOURCE pour ouvrir le panneau permettant de sélectionner vos données source, ici un jeu de données public concernant les crimes dans les parcs de New York, stocké dans un bucket Google Cloud Storage.
  12. Sélectionnez votre jeu de données et cliquez sur SELECT pour l’ajouter au pipeline.
    Renommez-le si nécessaire.
  13. Cliquez sur et ajoutez un processeur Math au pipeline. Le panneau de configuration s'ouvre.
  14. Donnez un nom significatif au processeur.

    Exemple

    calculate acre square root
  15. Configurez le processeur :
    1. Sélectionnez Square root dans la liste Function name, car vous souhaitez calculer la racine carrée du champ SIZE__ACRES_.
    2. Sélectionnez .SIZE__ACRES_ dans la liste Fields to process.
    3. Cliquez sur SAVE pour sauvegarder votre configuration.
      (Facultatif) Consultez l'aperçu du processeur pour voir les données après l'opération de calcul.
  16. Cliquez sur et ajoutez un processeur Filter au pipeline. Le panneau de configuration s'ouvre.
  17. Donnez un nom significatif au processeur.

    Exemple

    filter on robberies
  18. Configurez le processeur :
    1. Ajoutez un élément et sélectionnez .ROBBERY dans la liste Input, car vous souhaitez conserver uniquement la catégorie des vols parmi les crimes listés dans le jeu de données.
    2. Sélectionnez NONE dans la liste Optionally select a function to apply.
    3. Sélectionnez >= dans la liste Operator.
    4. Saisissez 1 dans le champ Value, car vous souhaitez filtrer les données contenant au moins un cas de vol.
    5. Cliquez sur SAVE pour sauvegarder votre configuration.
  19. (Facultatif) Consultez l'aperçu du processeur Filter pour voir l'échantillon de données après l'opération de filtre.

    Exemple

  20. Cliquez sur ADD DESTINATION et sélectionnez le jeu de données S3 qui contiendra vos données réorganisées.
    Renommez-le si nécessaire.
  21. Dans l'onglet Configuration de la destination, activez l'option Overwrite afin d'écraser le fichier existant dans S3 et de le remplacer par le fichier contenant les données traitées, puis cliquez sur SAVE afin de sauvegarder votre configuration.
  22. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
  23. Cliquez sur l'icône d'exécution pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution et le flux de sortie est envoyé au bucket Amazon S3 indiqué.
Si vous avez téléchargé le fichier de sortie, vous pouvez voir que les données des crimes ont été traitées et que les cas de vols ont été isolés.