Procédure
-
Ajoutez un composant tHDFSConfiguration et configurez-le avec la
métadonnée de connexion HDFS de votre référentiel :
-
Pour lire le fichier, utilisez un composant
tFileInputDelimited.
Remarque : Notez que les composants pour lire et écrire des fichiers dans les Jobs Spark Big Data Batch sont génériques et peuvent être utilisés dans n'importe quel espace de stockage.
-
Pour spécifier le système de fichiers à utiliser, cochez l'option Define a
storage configuration component et sélectionnez le
tHDFSConfiguration dans la liste déroulante :
- Pour sauvegarder vos données traitées vers Amazon S3, ajoutez un composant tS3Configuration.
-
Renseignez vos identifiants Amazon ainsi que le nom du bucket :
-
Ajoutez un composant tFileOutputDelimited pour écrire vos
données. Dans la vue Component du
tFileOutputDelimited, spécifiez l'espace de stockage dans Amazon
S3 :
Attention, lors de la saisie du nom du dossier, une barre oblique "/" doit précéder le nom du dossier.
-
Configurez le Job pour utiliser la métadonnée de cluster Amazon EMR :
-
Exécutez le Job et vérifiez que le nouveau dossier a été créé dans Amazon S3 :
Conseil :
Si vous ne pouvez pas lire depuis ou écrire vers Amazon S3 via un Job Big Data Batch (Spark ou MapReduce), vous devez peut-être mettre à niveau le fichier de politique attaché au EMR_EC2_DefaultRole. Ce rôle est créé lors du premier lancement du cluster Amazon EMR :
Cette action peut être réalisée dans Amazon Web Services > Identity & Access Management > Roles.
Pour plus d'informations relatives aux politiques de rôles, consultez Using IAM Roles with Amazon EC2 Instances (en anglais).