Scénario : Transfert de données de HDFS vers le framework Spark de Amazon S3

Amazon S3

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend ESB
Talend Big Data
Talend Open Studio for Data Integration
Talend Real-Time Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Open Studio for ESB
Talend Data Integration
Talend Open Studio for Big Data
Talend Data Services Platform
Talend Big Data Platform
Talend MDM Platform
Talend Open Studio for MDM
task
Qualité et préparation de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Gouvernance de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Création et développement > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
EnrichPlatform
Studio Talend

Procédure

  1. Ajoutez un composant tHDFSConfiguration et configurez-le avec la métadonnée de connexion HDFS de votre référentiel :
  2. Pour lire le fichier, utilisez un composant tFileInputDelimited.
    Remarque : Notez que les composants pour lire et écrire des fichiers dans les Jobs Spark Big Data Batch sont génériques et peuvent être utilisés dans n'importe quel espace de stockage.
  3. Pour spécifier le système de fichiers à utiliser, cochez l'option Define a storage configuration component et sélectionnez le tHDFSConfiguration dans la liste déroulante :
  4. Pour sauvegarder vos données traitées vers Amazon S3, ajoutez un composant tS3Configuration.
  5. Renseignez vos identifiants Amazon ainsi que le nom du bucket :
  6. Ajoutez un composant tFileOutputDelimited pour écrire vos données. Dans la vue Component du tFileOutputDelimited, spécifiez l'espace de stockage dans Amazon S3 :

    Attention, lors de la saisie du nom du dossier, une barre oblique "/" doit précéder le nom du dossier.

  7. Configurez le Job pour utiliser la métadonnée de cluster Amazon EMR :
  8. Exécutez le Job et vérifiez que le nouveau dossier a été créé dans Amazon S3 :
    Conseil :

    Si vous ne pouvez pas lire depuis ou écrire vers Amazon S3 via un Job Big Data Batch (Spark ou MapReduce), vous devez peut-être mettre à niveau le fichier de politique attaché au EMR_EC2_DefaultRole. Ce rôle est créé lors du premier lancement du cluster Amazon EMR :

    Cette action peut être réalisée dans Amazon Web Services > Identity & Access Management > Roles.

    Pour plus d'informations relatives aux politiques de rôles, consultez Using IAM Roles with Amazon EC2 Instances (en anglais).