Propriétés du tS3Configuration pour Apache Spark Streaming - 7.1

Amazon S3

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Gouvernance de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Qualité et préparation de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tS3Configuration s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tS3Configuration Spark Streaming appartient à la famille Storage.

Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.

Basic settings

Access Key

Saisissez l'ID de la clé d'accès identifiant de manière unique un compte AWS. Pour plus d'informations concernant l'obtention de vos Access Key et Secret Key, consultez Obtention de vos clés d'accès AWS.

Access Secret

La Secret Access Key, combinée à la clé d'accès, constitue votre accès sécurisé à Amazon S3.

Pour saisir la clé secrète, cliquez sur le bouton [...] à côté du champ Secret key, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles puis cliquez sur OK afin de sauvegarder les paramètres.

Bucket name

Saisissez le nom du bucket et celui du dossier à utiliser. Vous devez séparer le nom du bucket et le nom du dossier par une barre oblique (/).

Use s3a filesystem

Cochez cette case pour utiliser le système de fichiers S3A au lieu de S3N, le système de fichiers utilisé par défaut par le tS3Configuration.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR à partir de la version 4.5

  • MapR à partir de la version 5.0

  • Hortonworks Data Platform à partir de la version 2.4

  • Cloudera à partir de la version 5.8. Pour Cloudera V5.8, la version de Spark doit être 2.0.

  • Cloudera Altus
Inherit credentials from AWS Si vous utilisez le système de fichiers S3A avec EMR, vous pouvez cocher cette case pour obtenir des identifiants de sécurité AWS à partir de vos métadonnées d'instance EMR. Pour utiliser cette option, le cluster Amazon EMR doit être démarré et votre Job doit s'exécuter sur ce cluster. Pour plus d'informations, consultez Utilisation d'un rôle IAM pour accorder des autorisations à des applications s'exécutant sur des instances Amazon EC2.

Cette option vous permet de développer votre Job sans avoir à mettre de clé AWS dans le Job et ainsi satisfaire à la politique de sécurité de votre entreprise.

Assume Role

Si vous utilisez le système de fichiers S3A, vous pouvez cocher cette case pour que votre Job agisse temporairement avec un rôle et les droits associés à ce rôle.

Assurez-vous que l'accès à ce rôle a été octroyé à votre compte d'utilisateur par la politique de sécurité associée à ce rôle. En cas de doute, adressez-vous au propriétaire de ce rôle ou à votre administrateur AWS.

Une fois cette case cochée, spécifiez les paramètres à utiliser que l'administrateur du système AWS a défini pour ce rôle.
  • Role ARN : nom Amazon Resource Name (ARN) du rôle. Vous pouvez trouver ce nom ARN sur la page Summary du rôle à utiliser sur votre portail AWS. Ce ARN de rôle pourrait être par exemple am:aws:iam::[aws_account_number]:role/[role_name].

  • Role session name : saisissez le nom que vous souhaitez utiliser pour identifier de façon unique votre session de rôle. Ce nom peut être composé de caractères alphanumériques en majuscules ou en minuscules, sans espaces. Vous pouvez également inclure des tirets bas ou les caracètres suivants : =,.@-.

  • Session duration (minutes) : durée (en minutes) pour laquelle vous souhaitez que la session du rôle soit active. Cette durée ne peut pas être supérieure à la durée maximale définie par votre administrateur AWS.

Le paramètre External ID est requis uniquement si votre administrateur AWS ou le propriétaire de ce rôle a défini un identifiant externe lors de la configuration de la politique de sécurité de ce rôle.

De plus, si l'administrateur AWS a activé les endpoints STS pour des régions que vous souhaitez utiliser pour de meilleures performances de réponse, cochez la case Set STS region ou Set STS endpoint dans l'onglet Advanced settings.

Cette case est disponible uniquement pour les distributions suivantes que Talend supporte :
  • CDH 5.10 et supérieures (y compris le support dynamique des dernières distributions Cloudera)

    Si vous utilisez une distribution Cloudera ou Hortonworks, vous pouvez également ajouter votre distribution dans les paramètres de distributions dynamiques dans le Studio. Pour plus d'informations, consultez Ajouter dynamiquement la dernière plateforme Big Data. Les distributions dynamiques ainsi ajoutées sont généralement des versions mineures d'une mise à jour majeure certifiée Talend de votre distribution. Talend dépend des déclarations de compatibilité des vendeurs pour assurer la compatibilité du Studio avec ces versions mineures et fournit donc un support officiel pour les cas d'utilisation pouvant être produits dans ces versions mineures ainsi que dans les versions certifiées Talend.
    • Les distributions dynamiques pour HDP 3.x et CDH 6.x sont disponibles en aperçu technique.

    • Sur la liste des versions de distribution, certaines versions ont un libellé Builtin. Ces versions ont été ajoutées par Talend via le mécanisme de distribution dynamique et livrées avec le Studio lors de sa mise à jour. Elles sont certifiées par Talend et sont donc officiellement supportées et prêtes à l'emploi.
  • HDP 2.5 et supérieures

Cette case est également disponible lorsque vous utilisez Spark V1.6 et supérieures en mode Spark Local dans l'onglet Spark configuration.

Set region

Cochez cette case et sélectionnez la région à laquelle vous connecter.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR à partir de la version 4.5

  • MapR à partir de la version 5.0

  • Hortonworks Data Platform à partir de la version 2.4

  • Cloudera à partir de la version 5.8. Pour Cloudera V5.8, la version de Spark doit être 2.0.

  • Cloudera Altus

Set endpoint

Cochez cette case et, dans le champ Endpoint qui s'affiche, saisissez l'endpoint de région Amazon à utiliser. Pour une liste d'endpoints disponibles, consultez Régions et points de terminaison AWS.

Cette case n'est pas disponible lorsque vous avez coché la case Set region et, dans ce cas, la valeur sélectionnée dans la liste Set region est utilisée.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR à partir de la version 4.5

  • MapR à partir de la version 5.0

  • Hortonworks Data Platform à partir de la version 2.4

  • Cloudera à partir de la version 5.8. Pour Cloudera V5.8, la version de Spark doit être 2.0.

  • Cloudera Altus

Advanced settings

Set STS region et Set STS endpoint

Si l'administrateur AWS a activé les endpoints STS pour les régions auxquelles vous pouvez avoir un accès temporaire, cochez la case Set STS region puis sélectionnez l'endpoint régional à utiliser.

Si l'endpoint à utiliser n'est pas disponible dans la liste des endpoints de régions, décochez la case Set STS region, puis cochez la case Set STS endpoint et saisissez l'endpoint à utiliser.

Ce service vous permet de demander des identifiants temporaires, avec des autorisations limitées pour l'utilisateur AWS à authentifier. Vous devez toujours fournir la clé d'accès et la clé secrète pour vous authentifier au compte AWS à utiliser.

Pour la liste des endpoints STS que vous pouvez utiliser, consultez AWS Security Token Service. Pour plus d'informations concernant les identifiants STS temporaires, consultez Temporary Security Credentials. Ces deux articles proviennent de la documentation AWS.

Ces cases sont disponibles uniquement lorsque vous avez coché la case Assume Role dans l'onglet Basic settings.

Utilisation

Règle d'utilisation

Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants.

Déposez un composant tS3Configuration avec le sous-Job relatif au système de fichiers à exécuter au sein du même Job afin que la configuration soit utilisée par le Job complet lors de l'exécution.

Connexion à Spark

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake Storage (apercu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
    • Lorsque vous utilisez Qubole, ajoutez tS3Configuration à votre Job pour écrire vos données métier dans le système S3 avec Qubole. Sans tS3Configuration, ces données métier sont écrites dans le système Qubole HDFS et détruites une fois que vous arrêtez votre cluster.
    • Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser tHDFSConfiguration.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme tHDFSConfiguration ou tS3Configuration.

    Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem).

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre Studio. Pour plus d'informations, consultez Installer des modules externes.