Pour aller plus loin : Charger votre jeu de données dans S3 - Cloud

Guide de prise en main de Talend Cloud Pipeline Designer

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Pipeline Designer
task
Création et développement > Création de Pipelines
Déploiement > Déploiement > Exécution de Pipelines

Si vous avez un compte Amazon S3, vous pouvez vouloir aller plus loin. Une fois que vous avez chargé un fichier dans S3, vous pouvez créer une connexion à ce bucket S3 et récupérer le jeu de données à partir de Talend Cloud Pipeline Designer.

Vous pourrez alors reproduire le cas d’utilisation avec le jeu de données hébergé dans Amazon S3.

Avant de commencer

  • Assurez-vous que votre utilisateur·rice ou groupe d’utilisateurs et d'utilisatrices dispose des autorisations appropriées pour accéder aux ressources d’Amazon S3.

    Si vous ne disposez pas de ces autorisations, vous pouvez essayer une des options suivantes.
    1. (recommandée) Demandez à l’administrateur qui gère votre compte Amazon de vous donner/de donner à votre utilisateur·rice les autorisations S3 appropriées.
    2. Implémentez votre politique d’accès en suivant la documentation Amazon si vous êtes autorisé(e) à le faire.
    3. (non recommandée) Joindre la politique AmazonS3FullAccess à votre groupe/votre utilisateur·rice via la console IAM. Cela vous permet de lire les ressources S3 et d’écrire dans ces ressources S3 sans restriction dans un bucket spécifique. Cependant, ceci est une solution rapide qui n’est pas recommandée par Talend.
    Remarque : L’erreur par défaut qui s’affiche lorsque vous essayez d’accéder aux ressources S3 sans autorisation suffisante est Bad Gateway.
  • Récupérez le fichier financial_transactions.avro dans l’onglet Téléchargements du panneau de gauche de cette page.

Procédure

  1. Chargez le fichier financial_transactions.avro dans votre bucket Amazon S3 comme décrit dans la documentation Amazon S3.
  2. Dans la page d'accueil de Talend Cloud Pipeline Designer, cliquez sur Connections > ADD CONNECTION.
  3. Dans le panneau qui s’ouvre, donnez un nom à votre connexion, par exemple s3 connection.
  4. Sélectionnez votre Moteur distant Gen2 dans la liste Engine.
    Remarque : Si vous souhaitez utiliser un Moteur distant Gen2, vous devez le créer depuis Talend Cloud Management Console. S'il existe mais n'a pas le statut AVAILABLE signifiant qu'il est en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion Connection type dans la liste ou sauvegarder la nouvelle connexion. Les types de connexion disponibles dépendent du moteur sélectionné.
  5. Sélectionnez S3 connection dans la liste Connection type.
  6. Vérifiez votre connexion et cliquez sur ADD DATASET pour pointer vers le fichier précédemment chargé dans votre bucket S3.
  7. Dans le panneau Add a new dataset, saisissez les informations de connexion à votre bucket S3 :
    1. Donnez un nom d’affichage à votre jeu de données, financial data on S3 par exemple.
    2. Ajoutez une description si nécessaire.
    3. Dans le champ Bucket, sélectionnez ou saisissez le nom de votre bucket S3.
    4. Dans le champ Path, saisissez le chemin d’accès au fichier financial_transactions.avro que vous avez précédemment chargé dans votre bucket S3.
    5. Dans la liste Format, cliquez sur AUTO DETECT pour détecter automatiquement le format ou sélectionnez Avro dans la liste.
  8. Cliquez sur VIEW SAMPLE pour vérifier que vos données sont valides et peuvent être prévisualisées.
  9. Cliquez sur VALIDATE pour sauvegarder votre jeu de données.

Résultats

Dans la page Datasets (Jeux de données), le nouveau jeu de données est ajouté à la liste et peut être utilisé pour reproduire le cas d’utilisation précédemment créé.
Avant d'exécuter ce pipeline, choisissez si vous souhaitez écraser les données existantes sur S3 ou les fusionner, dans l'onglet de configuration du jeu de données de destination :

Une fois que votre pipeline est exécuté, les données mises à jour sont visibles dans le fichier situé sur Amazon S3.