Avant de commencer
Ce traitement est obtenu via un Job Big Data Batch utilisant un framework MapReduce.
Procédure
-
Pour lire les données de HDFS, utilisez un composant
tHDFSInput.
Remarque : Configurez-le en utilisant une métadonnée de connexion HDFS dans votre référentiel, comme abordé dans Amazon EMR - Getting Started.
-
Fournissez le schéma et le chemin d'accès du fichier sauvegardé sur HDFS
:
-
Les données sont ensuite traitées en utilisant un des traitements de composant
disponibles dans la Palette, tels que le tMap, le
tAggregateRow, le tSortRow,
etc.
Remarque : Notez que sans au moins un composant de traitement, l'exécution de votre Job échouera, car aucune tâche de MapReduce ne sera générée et soumise au cluster.
-
Pour écrire des données dans un bucket Amazon S3 bucket, utilisez le composant
tS3Output.
Remarque : La différence entre le tS3Put et le tS3Output est que le tS3Put copie un fichier local vers Amazon S3, alors que le composant tS3Output reçoit des données traitées via le composant précédent et écrit des données dans un système de fichiers Amazon S3 donné.
-
Pour configurer le composant tS3Output, vous aurez
besoin de vos identifiants Amazon, ainsi que des noms du bucket et du dossier où
les données devront être écrites :
-
Étant donné que vous créez un Job Big Data Batch, vous devez configurer la
connexion vers votre cluster Amazon EMR avant d'exécuter le Job.
Dans la vue Run de votre Job, cliquez sur l'onglet Hadoop Configuration et utilisez la métadonnée de connexion du cluster :
-
Exécutez le Job et vérifiez les résultats dans le bucket Amazon S3 :
-
Ouvrez le dossier de destination pour voir plus de détails :
Conseil :
Si vous ne pouvez pas lire depuis ou écrire vers Amazon S3 dans un Job Big Data Batch (Spark ou MapReduce), vous devez peut-être mettre à niveau le fichier de politique attachée au EMR_EC2_DefaultRole. Ce rôle est créé lors du premier lancement du cluster Amazon EMR :
Cette action peut être réalisée dans Amazon Web Services > Identity & Access Management > Roles.
Pour plus d'informations relatives aux politiques de rôles, consultez Using IAM Roles with Amazon EC2 Instances (en anglais).