Avant d'exécuter votre Job, vous devez le configurer pour utiliser votre cluster Amazon EMR.
Procédure
-
Comme votre Job s'exécute sur Spark, il est nécessaire d'ajouter un composant tHDFSConfiguration et de le configurer pour utiliser la métadonnée de connexion à HDFS provenant du référentiel.
- Dans la vue Run, cliquez sur l'onglet Spark Configuration.
-
Dans le panneau Cluster Version, configurez votre Job pour qu'il utilise votre métadonnée de connexion au cluster.
- Dans le champ Batch size, saisissez 2000 ms.
- Vous allez paramétrer des propriétés avancées, vous devez donc sélectionner Built-In dans la liste Property Type.
-
Dans le panneau Tuning, cochez la case Set tuning properties et configurez les champs comme suit.
-
Exécutez votre Job.
L'affichage des données dans la console prend quelques minutes.