Propriétés du tAmazonEMRManage Standard - 7.3

Amazon EMR

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon EMR
Gouvernance de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon EMR
Qualité et préparation de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon EMR
Last publication date
2024-02-22

Ces propriétés sont utilisées pour configurer le tAmazonEMRManage s'exécutant dans le framework de Jobs Standard.

Le composant tAmazonEMRManage Standard appartient à la famille Cloud.

Le composant de ce framework est disponible dans tous les produits Talend.

Basic settings

Access Key et Secret Key

Spécifiez les clés d'accès (l'ID de la clé d'accès dans le champ Access Key et la clé secrète d'accès dans le champ Secret Key) requises pour accéder à Amazon Web Services. Pour plus d'informations concernant les clés d'accès d'AWS, consultez Clés d'accès (ID de clé d'accès et clé d'accès secrète).

Pour saisir la clé secrète, cliquez sur le bouton [...] à côté du champ Secret key, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles puis cliquez sur OK afin de sauvegarder les paramètres.

Inherit credentials from AWS role

Cochez cette case pour tirer parti des informations d'authentification du profil de l'instance. Les identifiants peuvent être utilisés sur des instances Amazon EC2 ou AWS ECS et sont fournis via le service de métadonnées Amazon EC2. Pour utiliser cette option, votre Job doit s'exécuter dans Amazon EC2 ou d'autres services pouvant tirer parti des rôles IAM pour accéder aux ressources. Pour plus d'informations, consultez Utilisation d'un rôle IAM pour accorder des autorisations à des applications s'exécutant sur des instances Amazon EC2.

Assume role

Si vous avez temporairement besoin d'autorisations d'accès relatives à un rôle AWS IAM qui n'est pas octroyé à votre compte d'utilisateur ou d'utilisatrice, cochez cette case afin d'assumer ce rôle. Puis, spécifiez les valeurs des paramètres suivants pour créer une session du rôle.

Action

Sélectionnez dans la liste une action à effectuer, Start ou Stop.
  • Start : lance un cluster EMR.

  • Stop : termine un cluster Amazon EMR.

Region

Spécifiez la région AWS en sélectionnant un nom de région dans la liste ou en saisissant une région entre guillemets doubles (par exemple "us-east-1"). Pour plus d'informations concernant la spécification de la région AWS, consultez Choix d'une région AWS.

Cluster name

Saisissez le nom du cluster.

Cluster version

Sélectionnez la version du cluster.

Vous pouvez également cocher la case Customize Version and Application dans la vue Advanced settings afin de personnaliser les informations de version du cluster.

Cette propriété n'est pas disponible lorsque la case Customize Version and Application est cochée.

Application

Sélectionnez les applications à installer sur le cluster.

Vous pouvez également cocher la case Customize Version and Application dans la vue Advanced settings afin de personnaliser les informations des applications.

Cette propriété est disponible lorsqu'une version d'EMR est sélectionnée dans la liste Cluster version et que la case Customize Version and Application est décochée.

Service role

Saisissez le rôle IAM (Identity and Access Management) pour le service Amazon EMR. Le rôle par défaut est EMR_DefaultRole. Pour utiliser ce rôle par défaut, vous devez l'avoir déjà créé.

Job flow role

Saisissez le rôle IAM pour les instances EC2 gérées par Amazon EMR. Le rôle par défaut est EMR_EC2_DefaultRole. Pour utiliser ce rôle par défaut, vous devez l'avoir déjà créé.

Enable log

Cochez cette case pour activer l'enregistrement des logs et, dans le champ qui s'affiche, spécifiez le chemin d'accès à un dossier dans un bucket S3 dans lequel vous souhaitez qu'Amazon EMR écrive les données de log.

Use EC2 key pair

Cochez cette case pour associer une paire de clés Amazon EC2 (Elastic Compute Cloud) au cluster et, dans le champ affiché, saisissez le nom de votre paire de clés EC2.

Predicate

Spécifiez le(s) cluster(s) que vous souhaitez arrêter :
  • All running clusters : tous les clusters en cours d'exécution seront arrêtés.

  • All running clusters with predefined name : le cluster en cours d'exécution ayant le nom défini sera arrêté. Dans le champ Cluster name affiché, vous devez spécifier le nom du cluster à arrêter.

  • Running cluster with predefined id : le cluster en cours d'exécution ayant un ID donné va être arrêté. Dans le champ Cluster id affiché, vous devez spécifier l'ID du cluster à arrêter.

Cette liste est disponible uniquement lorsque l'option Stop est sélectionnée dans la liste Action.

Instance count

Saisissez le nombre d'instances d'Amazon EC2 à initialiser.

Ce champ est disponible uniquement si vous sélectionnez Start dans la liste déroulante Action de la vue Basic settings et que la case Use multiple master nodes est décochée.

Slave instance count

Saisissez le nombre d'instances esclaves Amazon EC2 à initialiser.

Ce champ est disponible uniquement si vous sélectionnez Start dans la liste déroulante Action de la vue Basic settings et que la case Use multiple master nodes dans la vue Advanced settings est cochée.

Master instance type

Sélectionnez le type d'instance maître à initialiser.

Slave instance type

Sélectionnez le type d'instance esclave à initialiser.

Advanced settings

STS Endpoint

Cochez cette case afin de spécifier l'endpoint du service AWS Security Token Service duquel les informations d'authentification sont récupérées. Par exemple, saisissez sts.amazonaws.com.

Cette case est disponible uniquement lorsque la case Assume Role est cochée.

Signing region

Sélectionnez la région AWS du service STS. Si la région n'est pas dans la liste, vous pouvez saisir son nom entre guillemets doubles. La valeur par défaut est us-east-1.

Cette liste déroulante case est disponible uniquement lorsque la case Assume Role est cochée.

External Id

Si l'administrateur du compte auquel le rôle appartient vous a fourni un ID externe, saisissez sa valeur ici. L'ID externe (External Id) est un identifiant unique permettant à un nombre d'utilisateurs et d'utilisatrices connecté·e·s limité d'avoir ce rôle.

Ce champ est disponible uniquement lorsque la case Assume Role est cochée.

Serial number

Lorsque vous avez un rôle attribué, la politique de confiance de ce rôle peut nécessiter une authentification multifacteur. Dans ce cas, vous devez indiquer le numéro d'identification du matériel ou de l'appareil d'authentification multifacteur virtuel associé à l'utilisateur ou l'utilisatrice ayant ce rôle.

Ce champ est disponible uniquement lorsque la case Assume Role est cochée.

Token code

Lorsque vous avez un rôle attribué, la politique de confiance de ce rôle peut nécessiter une authentification multifacteur. Dans ce cas, vous devez indiquer un code de jeton. Ce code de jeton est un mot de passe à utilisation unique produit par l'appareil d'authentification multifacteur.

Ce champ est disponible uniquement lorsque la case Assume Role est cochée.

Tags

Liste les balises de session sous forme de paires clé-valeur. Vous pouvez utiliser ces balises de session dans des politiques afin de permettre d'autoriser ou l'accès aux requêtes.

Transitive : cochez cette case pour indiquer qu'une balise persiste vers le rôle suivant dans une chaîne de rôles.

Pour plus d'informations concernant les balises, consultez Chaînage des rôles avec des balises de session.

Ce champ est disponible uniquement lorsque la case Assume Role est cochée.

IAM Policy ARNs

Saisissez les noms ARN (Amazon Resource Names) des stratégies gérées par IAM que vous souhaitez utiliser comme stratégies de sessions gérées. Utiliser les stratégies de sessions gérées afin de limiter les autorisations de la session. Les politiques doivent exister dans le même compte que le rôle. Les autorisations de la session sont au croisement de la stratégie des rôles basée sur l'identité et des stratégies de sessions.

Pour plus d'informations concernant les stratégies de sessions, consultez la documentation Stratégies de session.

Ce champ est disponible uniquement lorsque la case Assume Role est cochée.

Policy (Politique d'application)

Saisissez une politique IAM au format JSON, à utiliser comme politique de session. Utilisez les politiques de session afin de limiter les autorisations de la session. Les autorisations de la session sont au croisement de la stratégie des rôles basée sur l'identité et des stratégies de sessions.

Pour plus d'informations concernant les stratégies de sessions, consultez la documentation Stratégies de session.

Ce champ est disponible uniquement lorsque la case Assume Role est cochée.

Wait for cluster ready

Cochez cette case pour laisser votre Job attendre jusqu'à ce que le lancement du cluster soit terminé.

Visible to all users

Cochez cette case pour rendre visible le cluster à tous les utilisateurs et toutes les utilisatrices IAM.

Termination Protect

Cochez cette case pour activer la protection contre les arrêts afin d'empêcher les instances de s'éteindre à cause d'erreurs ou de problèmes au cours du traitement.

Enable debug

Cochez cette case pour activer le mode débogage.

Customize Version and Application

Cochez cette case pour personnaliser la version du cluster et les applications à installer sur le cluster.

  • Cluster version : saisissez la version du cluster.

  • Applications : cliquez sur le bouton [+] sous la table pour ajouter autant de lignes que nécessaire, chaque ligne pour une application. Spécifiez l'application en cliquant du côté droit de la cellule et en sélectionnant l'application dans la liste déroulante qui s'affiche, ou en saisissant le nom de l'application dans la cellule si elle n'est pas dans la liste.

Use multiple master nodes

Cochez cette case pour activer la haute disponibilité et lancer un cluster avec plusieurs nœuds maître, avec une distribution d'Amazon EMR en version 5.23 ou supérieure.
Important : Si vous cochez cette case, vous devez spécifier l'identifiant du sous-réseau Amazon VPC dans le champ Subnet id.

Subnet id

Spécifiez l'identifiant du sous-réseau de Amazon VPC (Virtual Private Cloud) dans lequel vous souhaitez démarrer le flux du Job.

Availability Zone

Spécifiez la zone de disponibilité pour les instances EC2 de votre cluster.

Master security group

Spécifiez le groupe de sécurité pour l'instance maître.

Additional master security groups

Spécifiez des groupes de sécurité supplémentaires pour l'instance maître et séparez-les à l'aide d'une virgule, par exemple, gname1, gname2, gname3.

Slave security group

Spécifiez le groupe de sécurité pour les instances esclaves.

Additional slave security groups

Spécifiez des groupes de sécurité supplémentaires pour les instances esclaves et séparez-les à l'aide d'une virgule, par exemple, gname1, gname2, gname3.

Service Access Security Group

Spécifiez l'identifiant du groupe de sécurité Amazon EC2 pour que le service Amazon EMR accède aux clusters du Cloud privé virtuel via un sous-réseau privé.

Pour plus d'informations concernant la création d'un sous-réseau privé pour activer le groupe de sécurité d'accès au service dans Amazon EMR, consultez Scénario 2 : VPC avec des sous-réseaux publics et privés (NAT).

Actions

Spécifiez les actions de bootstrapping associées au cluster, en cliquant sur le bouton [+] sous la table, pour ajouter autant de lignes que nécessaire, chaque ligne pour une action de bootstrapping. Configurez les paramètres pour chaque action :

  • Name : saisissez le nom de l'action de bootstrapping.

  • Script location : spécifiez l'emplacement du script exécuté par l'action de bootstrapping, par exemple, s3://ap-northeast-1.elasticmapreduce/bootstrap-actions/run-if.

  • Arguments : saisissez la liste des arguments de commandes de ligne (séparés par des virgules) passés à l'action de bootstrapping, par exemple, "arg0","arg1","arg2".

Pour plus d'informations concernant les actions de bootstrapping, consultez BootstrapActionConfig (en anglais).

Steps

Spécifiez les étapes du flux du Job à invoquer sur le cluster après son lancement, en cliquant sur le bouton [+] sous la table pour ajouter autant de lignes que nécessaire, chaque ligne pour une étape. Configurez les paramètres suivants pour chaque étape :

  • Name : saisissez le nom de l'étape du flux du job.

  • Action on Failure : cliquez dans la cellule et, dans la liste déroulante, sélectionnez l'action à effectuer si l'étape du flux du Job échoue.

  • Main Class : saisissez le nom de la classe principale dans le fichier Java spécifié. Si aucun nom n'est spécifié, le fichier Jar doit spécifier une classe principale dans son fichier manifest.

  • Jar : saisissez le chemin d'accès au fichier Jar exécuté au cours de l'étape, par exemple, "s3://inputjar/test.jar".

  • Args : saisissez la liste des arguments de commande de ligne (séparés par une virgule) passés à la fonction principale du fichier Jar lors de l'exécution, par exemple "arg0","arg1","arg2".

Pour plus d'informations concernant les étapes du flux du Job, consultez StepConfig (en anglais).

Keep alive after steps complete

Cochez cette case pour garder actif le flux du job une fois les étapes terminées.

Wait for steps to complete

Cochez cette case pour que votre Job attende jusqu'à ce que les étapes du flux du Job soient terminées.

Cette case est disponible uniquement lorsque la case Wait for cluster ready est cochée.

Properties

Spécifiez les informations de classification et de propriété fournies à l'objet de configuration du cluster EMR à créer, en cliquant sur le bouton [+] sous la table pour ajouter autant que lignes que nécessaire, chaque ligne pour une propriété. Configurez les paramètres suivants :

  • Classification : spécifiez la classification de la configuration.

  • Key : saisissez la clé de la propriété.

  • Value : saisissez la valeur de la propriété.

Ce champ est disponible uniquement si vous sélectionnez Start dans la liste déroulante Action de la vue Basic settings et que la case Use multiple master nodes est décochée.

Properties in JSON

Saisissez, au format JSON, les informations de classification et de propriété fournies à l'objet de configuration des clusters EMR à créer.

Ce champ est disponible uniquement si vous sélectionnez Start dans la liste déroulante Action de la vue Basic settings et que la case Use multiple master nodes dans la vue Advanced settings est cochée.

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de traitement du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Variables globales

CLUSTER_FINAL_ID

ID du cluster. Cette variable est une variable After et retourne une chaîne de caractères.

CLUSTER_FINAL_NAME

Nom du cluster. Cette variable est une variable After et retourne une chaîne de caractères.

ERROR_MESSAGE

Message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères.

Utilisation

Règle d'utilisation

Le tAmazonEMRManage est généralement utilisé en tant que composant standalone.