Transfert de données de HDFS vers le framework YARN de Amazon S3 - 7.0

Amazon S3

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Gouvernance de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Qualité et préparation de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
EnrichPlatform
Studio Talend
Dans cet exemple, les données sauvegardées dans HDFS sont traitées, et la sortie traitée est sauvegardée dans un bucket existant Amazon S3.

Avant de commencer

Ce traitement est obtenu via un Job Big Data Batch utilisant un framework MapReduce.

Procédure

  1. Pour lire les données de HDFS, utilisez un composant tHDFSInput.
    Remarque : Configurez-le en utilisant une métadonnée de connexion HDFS dans votre référentiel, comme abordé dans Amazon EMR - Getting Started.
  2. Fournissez le schéma et le chemin d'accès du fichier sauvegardé sur HDFS :
  3. Les données sont ensuite traitées en utilisant un des traitements de composant disponibles dans la Palette, tels que le tMap, le tAggregateRow, le tSortRow, etc.
    Remarque : Notez que sans au moins un composant de traitement, l'exécution de votre Job échouera, car aucune tâche de MapReduce ne sera générée et soumise au cluster.
  4. Pour écrire des données dans un bucket Amazon S3 bucket, utilisez le composant tS3Output.
    Remarque : La différence entre le tS3Put et le tS3Output est que le tS3Put copie un fichier local vers Amazon S3, alors que le composant tS3Output reçoit des données traitées via le composant précédent et écrit des données dans un système de fichiers Amazon S3 donné.
  5. Pour configurer le composant tS3Output, vous aurez besoin de vos identifiants Amazon, ainsi que des noms du bucket et du dossier où les données devront être écrites :

  6. Étant donné que vous créez un Job Big Data Batch, vous devez configurer la connexion vers votre cluster Amazon EMR avant d'exécuter le Job.
    Dans la vue Run de votre Job, cliquez sur l'onglet Hadoop Configuration et utilisez la métadonnée de connexion du cluster :
  7. Exécutez le Job et vérifiez les résultats dans le bucket Amazon S3 :
  8. Ouvrez le dossier de destination pour voir plus de détails :
    Conseil :

    Si vous ne pouvez pas lire depuis ou écrire vers Amazon S3 dans un Job Big Data Batch (Spark ou MapReduce), vous devez peut-être mettre à niveau le fichier de politique attachée au EMR_EC2_DefaultRole. Ce rôle est créé lors du premier lancement du cluster Amazon EMR :

    Cette action peut être réalisée dans Amazon Web Services > Identity & Access Management > Roles.

    Pour plus d'informations relatives aux politiques de rôles, consultez Using IAM Roles with Amazon EC2 Instances (en anglais).