Propriétés du tS3Configuration pour Apache Spark Batch - 7.0

Amazon S3

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Gouvernance de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Qualité et préparation de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tS3Configuration s'exécutant dans le framework de Jobs Spark Batch.

Le composant tS3Configuration Spark Batch appartient à la famille Storage.

Le composant de ce framework est disponible dans tous les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Basic settings

Access Key

Saisissez l'ID de la clé d'accès identifiant de manière unique un compte AWS. Pour plus d'informations concernant l'obtention de vos Access Key et Secret Key, consultez Obtention de vos clés d'accès AWS.

Access Secret

Saisissez la clé secrète d'accès (Secret Access Key), qui constitue, avec la clé d'accès, les informations d'authentification sécurisée.

Pour saisir la clé secrète, cliquez sur le bouton [...] à côté du champ Secret key, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles puis cliquez sur OK afin de sauvegarder les paramètres.

Bucket name

Saisissez le nom du bucket et celui du dossier à utiliser. Vous devez séparer le nom du bucket et le nom du dossier par une barre oblique (/).

Temp folder

Saisissez l'emplacement du dossier temporaire dans S3. Ce dossier sera automatiquement créé s'il n’existe pas lors de l'exécution.

Use s3a filesystem

Cochez cette case pour utiliser la système de fichiers S3A au lieu de S3N, le système de fichiers utilisé par défaut par le tS3Configuration.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR à partir de la version 4.5

  • MapR à partir de la version 5.0

  • Hortonworks Data Platform à partir de la version 2.4

  • Cloudera à partir de la version 5.8. Pour Cloudera V5.8, la version de Spark doit être 2.0.

  • Cloudera Altus

Assume Role

Si vous utilisez le système de fichiers S3A, vous pouvez cocher cette case pour que votre Job agisse avec un rôle et les droits associés à ce rôle.

Cette case est disponible uniquement pour les distributions suivantes que Talend supporte :
  • CDH 5.10 et supérieures (y compris le support dynamique des dernières distributions Cloudera)

    Si vous utilisez une distribution Cloudera, vous pouvez également ajouter votre distribution dans les paramètres de distributions dynamiques (aperçu technique) dans le Studio. Pour plus d'informations, consultez Ajouter dynamiquement la dernière distribution Hadoop (aperçu technique). La distribution dynamique ainsi ajoutée n'est pas officiellement supportée par Talend.

  • HDP 2.5 et supérieures

Cette case est également disponible lorsque vous utilisez Spark V1.6 et supérieures en mode Spark Local dans l'onglet Spark configuration.

Une fois cette case cochée, spécifiez les paramètres que l'administrateur du système AWS a défini pour ce rôle, comme l'ID externe et le nom Amazon Resource Name (ARN) de ce rôle.

De plus, si l'administrateur AWS a activé les endpoints STS pour des régions que vous souhaitez utiliser pour de meilleures performances de réponse, cochez la case Set STS region ou Set STS endpoint dans l'onglet Advanced settings.

Set region

Cochez cette case et sélectionnez la région à laquelle vous connecter.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR à partir de la version 4.5

  • MapR à partir de la version 5.0

  • Hortonworks Data Platform à partir de la version 2.4

  • Cloudera à partir de la version 5.8. Pour Cloudera V5.8, la version de Spark doit être 2.0.

  • Cloudera Altus

Set endpoint

Cochez cette case et, dans le champ Endpoint qui s'affiche, saisissez l'endpoint de région Amazon à utiliser. Pour une liste d'endpoints disponibles, consultez Régions et points de terminaison AWS.

Cette case n'est pas disponible lorsque vous avez coché la case Set region et, dans ce cas, la valeur sélectionnée dans la liste Set region est utilisée.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR à partir de la version 4.5

  • MapR à partir de la version 5.0

  • Hortonworks Data Platform à partir de la version 2.4

  • Cloudera à partir de la version 5.8. Pour Cloudera V5.8, la version de Spark doit être 2.0.

  • Cloudera Altus

Advanced settings

Set STS region et Set STS endpoint

De plus, si l'administrateur AWS a activé les endpoints STS pour des régions que vous souhaitez utiliser pour de meilleures performances de réponse, cochez la case Set STS region et sélectionnez l'endpoint de région à utiliser.

Si l'endpoint à utiliser n'est pas disponible dans la liste des endpoints de régions, décochez la case Set STS region, puis cochez la case Set STS endpoint et saisissez l'endpoint à utiliser.

Ces cases sont disponibles uniquement lorsque vous avez coché la case Assume Role dans l'onglet Basic settings.

Utilisation

Règle d'utilisation

Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants.

Déposez un composant tS3Configuration avec le sous-job relatif au système de fichiers à exécuter au sein du même Job afin que la configuration soit utilisée par le Job complet lors de l'exécution.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Seul un composant tS3Configuration est autorisé par Job.

Connexion à Spark

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake (apercu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
    • Lorsque vous utilisez d'autres distributions, utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme tHDFSConfiguration ou tS3Configuration.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre studio. Pour plus d'informations, consultez Installer des modules externes.