Transférer des données de HDFS vers le framework Spark d'Amazon S3 - 7.0

Spark Batch

Version
7.0
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch

Procédure

  1. Ajoutez un composant tHDFSConfiguration et configurez-le avec la métadonnée de connexion HDFS de votre référentiel :
  2. Pour lire le fichier, utilisez un composant tFileInputDelimited.
    Remarque : Notez que les composants pour lire et écrire des fichiers dans les Jobs Spark Big Data Batch sont génériques et peuvent être utilisés dans n'importe quel espace de stockage.
  3. Pour spécifier le système de fichiers à utiliser, cochez l'option Define a storage configuration component et sélectionnez le tHDFSConfiguration dans la liste déroulante :
  4. Pour sauvegarder vos données traitées vers Amazon S3, ajoutez un composant tS3Configuration.
  5. Renseignez vos identifiants Amazon ainsi que le nom du bucket :
  6. Ajoutez un composant tFileOutputDelimited pour écrire vos données. Dans la vue Component du tFileOutputDelimited, spécifiez l'espace de stockage dans Amazon S3 :

    Soyez prudent lorsque vous écrivez le nom du fichier. Vous devez placer une barre oblique "/" (Slash) avant le nom du fichier.

  7. Configurez le Job pour utiliser la métadonnée de cluster Amazon EMR :
  8. Exécutez le Job et vérifiez que le nouveau dossier a été créé dans Amazon S3 :
    Conseil :

    Si vous ne pouvez pas lire depuis ou écrire vers Amazon S3 via un Job Big Data Batch (Spark ou MapReduce), vous devez peut-être mettre à niveau le fichier de politique attaché au EMR_EC2_DefaultRole. Ce rôle est créé lors du premier lancement du cluster Amazon EMR :

    Cette action peut être réalisée dans Amazon Web Services > Identity & Access Management > Roles.

    Pour plus d'informations relatives aux politiques de rôles, consultez Using IAM Roles with Amazon EC2 Instances (en anglais).