Propriétés du tS3Configuration pour Apache Spark Streaming - 7.3

Amazon S3

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Gouvernance de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Qualité et préparation de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3

Ces propriétés sont utilisées pour configurer le tS3Configuration s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tS3Configuration Spark Streaming appartient à la famille Stockage.

Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.

Basic settings

Access Key

Saisissez l'ID de la clé d'accès identifiant de manière unique un compte AWS. Pour plus d'informations concernant l'obtention de vos Access Key et Secret Key, consultez Obtention de vos clés d'accès AWS.

Access Secret

La Secret Access Key, combinée à la clé d'accès, constitue votre accès sécurisé à Amazon S3.

Pour saisir la clé secrète, cliquez sur le bouton [...] à côté du champ Secret key, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles puis cliquez sur OK afin de sauvegarder les paramètres.

Use EMRFS consistent view (Utiliser la vue EMRFS consistent) Cochez cette case pour utiliser la vue EMR File System (EMRFS) consistent view. Cette option permet aux clusters EMR de vérifier la liste et la cohérence de lecture après écriture pour les objets Amazon S3 écrits par ou synchronisés avec EMRFS.
Remarque : Évitez d'aller dans cette vue et d'en sortir régulièrement pour un bucket, cela peut créer des erreurs d'incohérence. Si ce problème survient, vous pouvez corriger les incohérences à l'aide de la commande sync dans l'invite de commande EMRFS. Pour plus d'informations, consultez Référence de l'interface de ligne de commande EMRFS.

Cette fonctionnalité est disponible avec la distribution Amazon EMR 5.29.

EMRFS metadata table Saisissez le nom de la table de métadonnées DynamoDB à utiliser.
Remarque : Le nom de la table de métadonnées par défaut est EmrFSMetadata.

Ce champ est disponible uniquement lorsque vous avez coché la case Use EMRFS consistent view.

Bucket name

Saisissez le nom du bucket et celui du dossier à utiliser. Vous devez séparer le nom du bucket et le nom du dossier par une barre oblique (/).

Inherit credentials from AWS (Récupérer les identifiants depuis AWS) Cochez cette case pour obtenir les identifiants de sécurité AWS depuis les métadonnées de votre instance EMR. Pour utiliser cette option, le cluster Amazon EMR doit être démarré et votre Job doit s'exécuter sur ce cluster. Pour plus d'informations, consultez Utilisation d'un rôle IAM pour accorder des autorisations à des applications s'exécutant sur des instances Amazon EC2 .

Cette option vous permet de développer votre Job sans avoir à mettre de clé AWS dans le Job et ainsi satisfaire à la politique de sécurité de votre entreprise.

Use SSE-KMS encryption with CMK (Utiliser le chiffrement SSE-KMS avec CMK) Cochez cette case pour utiliser le service de chiffrement SSE-KMS activé dans AWS afin de lire ou écrire les données chiffrées dans S3.

Du côté EMR, le service SSE-KMS doit avoir été activé avec la fonctionnalité Default encryption (Chiffrement par défaut) et une clé CMK spécifiée pour le chiffrement.

Pour plus d'informations concernant le chiffrement côté serveur, consultez Protection des données à l'aide d'un chiffrement côté serveur.

Pour plus d'informations concernant l'activation de la fonctionnalité Default Encryption pour un bucket Amazon S3, consultez Chiffrement par défaut dans la documentation AWS.

Cette fonctionnalité est disponible lorsque vous utilisez des distributions Amazon EMR.

Use S3 bucket policy (Utiliser la politique de bucket S3) Si vous avez défini une politique de bucket pour le bucket à utiliser, cochez cette case.
Une fois cette case cochée, sélectionnez le chiffrement par défaut utilisé pour votre bucket dans la liste déroulante Bucket encryption :
  • aws:kms : chiffrement côté serveur avec AWS KMS-Managed Keys (SSE-KMS)
  • aes:256 : chiffrement côté serveur avec Amazon S3-Managed Keys (SSE-S3)
Use 'in-transit' encryption

Cochez cette case pour activer le chiffrement des données en transit.

Remarque : Le chiffrement en transit est sélectionné par défaut. Si vous désactivez cette option, vous n'avez pas besoin de configurer de cluster EMS chiffré KMS.

Assume Role (Endosser un rôle)

Cochez cette case pour que votre Job agisse temporairement avec un rôle et les droits associés à ce rôle.

Assurez-vous que l'accès à ce rôle a été octroyé à votre compte d'utilisateur ou d'utilisatrice par la politique de sécurité associée à ce rôle. En cas de doute, adressez-vous au propriétaire de ce rôle ou à votre administrateur AWS.

Une fois cette case cochée, spécifiez les paramètres à utiliser que l'administrateur du système AWS a défini pour ce rôle.
  • Role ARN : nom Amazon Resource Name (ARN) du rôle. Vous pouvez trouver ce nom ARN sur la page Summary du rôle à utiliser sur votre portail AWS. Ce ARN de rôle pourrait être par exemple am:aws:iam::[aws_account_number]:role/[role_name].

  • Role session name : saisissez le nom que vous souhaitez utiliser pour identifier de façon unique votre session de rôle. Ce nom peut être composé de caractères alphanumériques en majuscules ou en minuscules, sans espaces. Vous pouvez également inclure des tirets bas ou les caractères suivants : =,.@-.

  • Session duration (minutes) : durée (en minutes) pour laquelle vous souhaitez que la session du rôle soit active. Cette durée ne peut pas être supérieure à la durée maximale définie par votre administrateur AWS. La durée par défaut est de 3 600 secondes si vous ne configurez pas de valeur.

Le paramètre External ID est requis uniquement si votre administrateur AWS ou le propriétaire de ce rôle a défini un identifiant externe lors de la configuration de la politique de sécurité de ce rôle.

  • Policy : saisissez une politique IAM au format JSON, à utiliser comme politique de session. Utilisez les politiques de session afin de limiter les autorisations de la session. Les autorisations de la session sont au croisement de la stratégie des rôles basée sur l'identité et des stratégies de sessions.
  • Policy ARNs : saisissez les noms ARN (Amazon Resource Names) des stratégies gérées par IAM que vous souhaitez utiliser comme stratégies de sessions gérées. Utiliser les stratégies de sessions gérées afin de limiter les autorisations de la session. Les politiques doivent exister dans le même compte que le rôle. Les autorisations de la session sont au croisement de la stratégie des rôles basée sur l'identité et des stratégies de sessions.
  • Serial Number : lorsque vous avez un rôle attribué, la politique de confiance de ce rôle peut nécessiter une authentification multifacteur. Dans ce cas, vous devez indiquer le numéro d'identification du matériel ou de l'appareil d'authentification multifacteur virtuel associé à l'utilisateur ou l'utilisatrice ayant ce rôle.
  • Tags : liste les balises de session sous forme de paires clé-valeur. Vous pouvez utiliser ces balises de session dans des politiques afin de permettre d'autoriser ou l'accès aux requêtes.
  • Token Code : lorsque vous avez un rôle attribué, la politique de confiance de ce rôle peut nécessiter une authentification multifacteur. Dans ce cas, vous devez indiquer un code de jeton. Ce code de jeton est un mot de passe à utilisation unique produit par l'appareil d'authentification multifacteur.
  • Transitive Tag Keys : liste les balises de session sous forme de paires clé-valeur à faire persister dans le rôle suivant dans une chaîne de rôles.

De plus, si l'administrateur AWS a activé les endpoints STS pour des régions que vous souhaitez utiliser pour de meilleures performances de réponse, cochez la case Set STS region ou Set STS endpoint dans l'onglet Advanced settings.

Cette case est disponible uniquement pour les distributions suivantes que Talend supporte :
  • CDH 5.10 et supérieures (y compris le support dynamique des dernières distributions Cloudera)

  • HDP 2.5 et supérieures

  • EMR 5.15 et supérieures

  • CDP Private Cloud Base 7.1.x

Cette case est également disponible lorsque vous utilisez Spark V1.6 et supérieures en mode Spark Local dans l'onglet Spark configuration.

Set region

Cochez cette case et sélectionnez la région à laquelle vous connecter.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR V4.5 jusqu'à V5.15. EMR utilise EMRFS à partir de la version 5.29

  • MapR à partir de la version 5.0

  • Hortonworks Data Platform à partir de la version 2.4

  • Cloudera à partir de la version 5.8. Pour Cloudera V5.8, la version de Spark doit être 2.0.

  • Cloudera Altus

Set endpoint

Cochez cette case et, dans le champ Endpoint qui s'affiche, saisissez l'endpoint de région Amazon à utiliser. Pour une liste d'endpoints disponibles, consultez Régions et points de terminaison AWS.

Cette case n'est pas disponible lorsque vous avez coché la case Set region (Configurer la région) et, dans ce cas, la valeur sélectionnée dans la liste Set region (Configurer la région) est utilisée.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR V4.5 jusqu'à V5.15. EMR utilise EMRFS à partir de la version 5.29

  • MapR à partir de la version 5.0

  • Hortonworks Data Platform à partir de la version 2.4

  • Cloudera à partir de la version 5.8. Pour Cloudera V5.8, la version de Spark doit être 2.0.

  • Cloudera Altus

Paramètres avancés

Set STS region (Définir la région STS) et Set STS endpoint (Définir l'endpoint STS)

De plus, si l'administrateur AWS a activé les endpoints STS pour des régions que vous souhaitez utiliser pour de meilleures performances de réponse, cochez la case Set STS region et sélectionnez l'endpoint de région à utiliser.

Si l'endpoint à utiliser n'est pas disponible dans la liste des endpoints de régions, décochez la case Set STS region (Définir la région STS), puis cochez la case Set STS endpoint (Définir l'endpoint STS) et saisissez l'endpoint à utiliser.

Ce service vous permet d'effectuer une requête pour obtenir des identifiants temporaires, avec des droits limités, pour l'authentification utilisateur·rice à AWS. Vous devez fournit la clé d'accès et la clé secrète pour vous authentifier au compte AWS à utiliser.

Pour la liste des endpoints STS que vous pouvez utiliser, consultez AWS Security Token Service. Pour plus d'informations concernant les identifiants STS temporaires, consultez Temporary Security Credentials. Ces deux articles proviennent de la documentation AWS.

Ces cases sont disponibles uniquement lorsque vous avez coché la case Assume Role (Endosser un rôle) dans l'onglet Basic settings (Paramètres de base).

Utilisation

Règle d'utilisation

Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants.

Plusieurs composants tS3Configuration sont autorisés par Job.

Déposez un composant tS3Configuration avec le sous-Job relatif au système de fichiers à exécuter au sein du même Job afin que la configuration soit utilisée par le Job complet lors de l'exécution.

Connexion à Spark

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake Storage (apercu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
    • Lorsque vous utilisez Qubole, ajoutez tS3Configuration à votre Job pour écrire vos données métier dans le système S3 avec Qubole. Sans tS3Configuration, ces données métier sont écrites dans le système Qubole HDFS et détruites une fois que vous arrêtez votre cluster.
    • Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser bix1550477842760.html.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme bix1550477842760.html ou tS3Configuration.

    Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem).

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre Studio. Pour plus d'informations, consultez Installation de modules externes .