Propriétés du tS3Configuration pour Apache Spark Batch - 6.4

Amazon S3

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Gouvernance de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Qualité et préparation de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tS3Configuration s'exécutant dans le framework de Jobs Spark Batch.

Le composant tS3Configuration Spark Batch appartient à la famille Storage.

Le composant dans ce framework est disponible dans tous les produits Talend avec Big Data nécessitant souscription et dans Talend Data Fabric.

Basic settings

Access Key

Saisissez l'ID de la clé d'accès identifiant de manière unique un compte AWS. Pour plus d'informations concernant l'obtention de vos Access Key et Secret Key, consultez Getting Your AWS Access Keys (en anglais).

Access Secret

Saisissez la clé secrète d'accès (Secret Access Key), qui constitue, avec la clé d'accès, les informations d'authentification sécurisée.

Pour saisir la clé secrète, cliquez sur le bouton [...] à côté du champ Secret key, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles puis cliquez sur OK afin de sauvegarder les paramètres.

Bucket name

Saisissez le nom du bucket et celui du dossier à utiliser. Vous devez séparer le nom du bucket et le nom du dossier par une barre oblique (/).

Temp folder

Saisissez l'emplacement du dossier temporaire dans S3. Ce dossier sera automatiquement créé s'il n’existe pas lors de l'exécution.

Use s3a filesystem

Cochez cette case pour utiliser la système de fichiers S3A au lieu de S3N, le système de fichiers utilisé par défaut par le tS3Configuration.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR
    • V4.5

    • V.4.6

  • MapR
    • V5.0

    • V5.1

    • V5.2

  • Hortonworks Data Platform
    • V2.3

    • V2.4

Set region

Cochez cette case et sélectionnez la région à laquelle vous connecter.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR
    • V4.5

    • V.4.6

  • MapR
    • V5.0

    • V5.1

    • V5.2

  • Hortonworks Data Platform
    • V2.3

    • V2.4

Set endpoint

Cochez cette case et, dans le champ Endpoint qui s'affiche, saisissez l'endpoint de région Amazon à utiliser. Pour une liste d'endpoints disponibles, consultez Regions and Endpoints (en anglais).

Si vous laissez cette case décochée, l'endpoint sera celui par défaut défini par votre distribution Hadoop. Cette case n'est pas disponible lorsque vous avez coché la case Set region et, dans ce cas, la valeur sélectionnée dans la liste Set region est utilisée.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR
    • V4.5

    • V.4.6

  • MapR
    • V5.0

    • V5.1

    • V5.2

  • Hortonworks Data Platform
    • V2.3

    • V2.4

Utilisation

Règle d'utilisation

Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants.

Déposez un composant tS3Configuration avec le sous-job relatif au système de fichiers à exécuter au sein du même Job afin que la configuration soit utilisée par le Job complet lors de l'exécution.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Seul un composant tS3Configuration est autorisé par Job.

Connexion à Spark

Vous devez utiliser l'onglet Spark Configuration de la vue Run afin de définir la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode : lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration. Lorsque vous utilisez d'autres distributions, utilisez un composant tHDFSConfiguration afin de spécifier le répertoire.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme tHDFSConfiguration ou tS3Configuration.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre studio. Installation de modules externes.