Configuration des paramètres de connexion à EMR - Cloud

Terminez la configuration de la connexion EMR dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Procédure

Saisissez les informations simples de configuration :

Use local timezone	Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Remarque : Si vous décochez cette case, Spark utilise le fuseau horaire UTC. Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components	Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances. Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité. Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD. Important : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
Use timestamp for dataset components	Cochez cette case pour utiliser `java.sql.Timestamp` pour les dates. Remarque : Si vous laissez cette case décochée, `java.sql.Timestamp` ou `java.sql.Date` peut être utilisé, selon le modèle.

Use local timezone

Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.

Remarque :

Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.

Use dataset API in migrated components

Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :

Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.

Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD.

Important : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.

Use timestamp for dataset components

Cochez cette case pour utiliser java.sql.Timestamp pour les dates.

Remarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.

Saisissez les informations simples de connexion à EMR :

Yarn client	Le Studio Talend exécute le pilote Spark pour orchestrer la manière dont sera exécuté le Job, puis envoie l'orchestration au service Yarn d'un cluster Hadoop donné, afin que le Resource Manager de ce service Yarn demande des ressources pour l'exécution. Si vous utilisez le mode Yarn client, vous devez configurer les paramètres suivants dans les champs correspondants (si vous laissez décochée la case d'un service, lors de l'exécution, la configuration de ce paramètre dans le cluster Hadoop à utiliser sera ignorée) : Dans le champ Use datanode du Resource manager, saisissez l'adresse du service ResourceManager du cluster Hadoop à utiliser. Cochez la case Set resourcemanager scheduler address et saisissez l'adresse de l'ordonnanceur (Scheduler) dans le champ qui apparaît. Cochez la case Set jobhistory address et saisissez l'emplacement du serveur JobHistory du cluster Hadoop à utiliser. Cela permet de stocker les informations relatives aux métriques du Job courant sur le serveur JobHistory. Cochez la case Set staging directory et saisissez le chemin d'accès au répertoire défini dans votre cluster Hadoop pour les fichiers temporaires créés par l'exécution de programmes. Ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration comme yarn-site.xml ou mapred-site.xml de votre distribution. Si vous accédez au cluster Hadoop fonctionnant avec la sécurité Kerberos, cochez cette case, puis saisissez les noms Principal Name de Kerberos pour le service Resource Manager et le service Job History dans les champs affichés. Cela vous permet d'utiliser votre nom d'utilisateur ou d'utilisatrice pour vous authentifier, en les comparant aux informations stockées dans Kerberos. Ces principaux se trouvent dans les fichiers de configuration de votre distribution, comme yarn-site.xml et mapred-site.xml. Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un Talend JobServer. l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser. Le champ User name est disponible lorsque vous n'utilisez pas Kerberos pour vous authentifier. Dans le champ User name, saisissez votre identifiant pour cette distribution. Si vous laissez le champ vide, le nom de la machine hébergeant le Studio Talend sera utilisé. Si le cluster Spark ne peut reconnaître la machine sur laquelle le Job est lancé, cochez la case Define the driver hostname or IP address et saisissez le nom de l'hôte ou l'adresse IP de cette machine. Cela permet au Master Spark et à ses Workers de reconnaître la machine où se trouve le Job, et donc son pilote. Notez que, dans cette situation, vous devez également ajouter le nom et l'adresse IP de cette machine dans son fichier host.
Yarn cluster	Le pilote Spark s'exécute dans votre cluster Yarn afin d'orchestrer la manière d'exécuter le Job. Si vous utilisez le mode Yarn cluster, vous devez définir les paramètres suivants dans les champs correspondants (si vous laissez la case d'un service décochée, la configuration de ce paramètre dans le cluster Hadoop à utiliser sera ignorée lors de l'exécution) : Dans le champ Use datanode du Resource manager, saisissez l'adresse du service ResourceManager du cluster Hadoop à utiliser. Cochez la case Set resourcemanager scheduler address et saisissez l'adresse de l'ordonnanceur (Scheduler) dans le champ qui apparaît. Cochez la case Set jobhistory address et saisissez l'emplacement du serveur JobHistory du cluster Hadoop à utiliser. Cela permet de stocker les informations relatives aux métriques du Job courant sur le serveur JobHistory. Cochez la case Set staging directory et saisissez le chemin d'accès au répertoire défini dans votre cluster Hadoop pour les fichiers temporaires créés par l'exécution de programmes. Ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration comme yarn-site.xml ou mapred-site.xml de votre distribution. Set path to custom Hadoop configuration JAR : si vous utilisez une connexion définie dans le Repository pour vous connecter à votre cluster Cloudera ou Hortonworks, cochez cette case dans l'assistant du Repository. Dans le champ qui s'affiche, spécifiez le chemin d'accès au fichier Jar fournissant les paramètres de connexion à votre environnement. Ce fichier doit être accessible depuis la machine sur laquelle votre Job est exécuté. Ce genre de fichier Jar de configuration Hadoop est automatiquement généré lorsque vous construisez un Job Big Data dans le Studio Talend. Le fichier Jar est nommé suivant ce modèle par défaut : `hadoop-conf-[name_of_the_metadata_in_the_repository]_[name_of_the_context].jar` Vous pouvez également télécharger ce fichier Jar depuis la console Web de votre cluster ou simplement créer un fichier Jar en plaçant les fichiers de configuration à la racine de votre fichier Jar. Par exemple : `hdfs-sidt.xml core-site.xml` Les paramètres de votre fichier Jar personnalisé écrasent les paramètres renseignés dans le champ Spark configuration. Ils écrasent également la configuration définie dans les composants de configuration, comme le tHDFSConfiguration ou le tHBaseConfiguration, lorsque le système de stockage associé, tel que HDFS, HBase ou Hive est natif Hadoop. Ils n'écrasent pas la configuration définie dans les composants de configuration pour le système de stockage tiers, comme le tAzureFSConfiguration. Si vous accédez au cluster Hadoop fonctionnant avec la sécurité Kerberos, cochez cette case, puis saisissez les noms Principal Name de Kerberos pour le service Resource Manager et le service Job History dans les champs affichés. Cela vous permet d'utiliser votre nom d'utilisateur ou d'utilisatrice pour vous authentifier, en les comparant aux informations stockées dans Kerberos. Ces principaux se trouvent dans les fichiers de configuration de votre distribution, comme yarn-site.xml et mapred-site.xml. Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un Talend JobServer. l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser. Le champ User name est disponible lorsque vous n'utilisez pas Kerberos pour vous authentifier. Dans le champ User name, saisissez votre identifiant pour cette distribution. Si vous laissez le champ vide, le nom de la machine hébergeant le Studio Talend sera utilisé. Cochez la case Wait for the Job to complete pour que votre Studio Talend ou, si vous utilisez le Talend JobServer, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.

Yarn client

Le Studio Talend exécute le pilote Spark pour orchestrer la manière dont sera exécuté le Job, puis envoie l'orchestration au service Yarn d'un cluster Hadoop donné, afin que le Resource Manager de ce service Yarn demande des ressources pour l'exécution.

Si vous utilisez le mode Yarn client, vous devez configurer les paramètres suivants dans les champs correspondants (si vous laissez décochée la case d'un service, lors de l'exécution, la configuration de ce paramètre dans le cluster Hadoop à utiliser sera ignorée) :

Dans le champ Use datanode du Resource manager, saisissez l'adresse du service ResourceManager du cluster Hadoop à utiliser.
Cochez la case Set resourcemanager scheduler address et saisissez l'adresse de l'ordonnanceur (Scheduler) dans le champ qui apparaît.
Cochez la case Set jobhistory address et saisissez l'emplacement du serveur JobHistory du cluster Hadoop à utiliser. Cela permet de stocker les informations relatives aux métriques du Job courant sur le serveur JobHistory.
Cochez la case Set staging directory et saisissez le chemin d'accès au répertoire défini dans votre cluster Hadoop pour les fichiers temporaires créés par l'exécution de programmes. Ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration comme yarn-site.xml ou mapred-site.xml de votre distribution.
Si vous accédez au cluster Hadoop fonctionnant avec la sécurité Kerberos, cochez cette case, puis saisissez les noms Principal Name de Kerberos pour le service Resource Manager et le service Job History dans les champs affichés. Cela vous permet d'utiliser votre nom d'utilisateur ou d'utilisatrice pour vous authentifier, en les comparant aux informations stockées dans Kerberos. Ces principaux se trouvent dans les fichiers de configuration de votre distribution, comme yarn-site.xml et mapred-site.xml.

Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un Talend JobServer.

l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser.
Le champ User name est disponible lorsque vous n'utilisez pas Kerberos pour vous authentifier. Dans le champ User name, saisissez votre identifiant pour cette distribution. Si vous laissez le champ vide, le nom de la machine hébergeant le Studio Talend sera utilisé.
Si le cluster Spark ne peut reconnaître la machine sur laquelle le Job est lancé, cochez la case Define the driver hostname or IP address et saisissez le nom de l'hôte ou l'adresse IP de cette machine. Cela permet au Master Spark et à ses Workers de reconnaître la machine où se trouve le Job, et donc son pilote.

Notez que, dans cette situation, vous devez également ajouter le nom et l'adresse IP de cette machine dans son fichier host.

Yarn cluster

Le pilote Spark s'exécute dans votre cluster Yarn afin d'orchestrer la manière d'exécuter le Job.

Si vous utilisez le mode Yarn cluster, vous devez définir les paramètres suivants dans les champs correspondants (si vous laissez la case d'un service décochée, la configuration de ce paramètre dans le cluster Hadoop à utiliser sera ignorée lors de l'exécution) :

Dans le champ Use datanode du Resource manager, saisissez l'adresse du service ResourceManager du cluster Hadoop à utiliser.
Cochez la case Set resourcemanager scheduler address et saisissez l'adresse de l'ordonnanceur (Scheduler) dans le champ qui apparaît.
Cochez la case Set jobhistory address et saisissez l'emplacement du serveur JobHistory du cluster Hadoop à utiliser. Cela permet de stocker les informations relatives aux métriques du Job courant sur le serveur JobHistory.
Cochez la case Set staging directory et saisissez le chemin d'accès au répertoire défini dans votre cluster Hadoop pour les fichiers temporaires créés par l'exécution de programmes. Ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration comme yarn-site.xml ou mapred-site.xml de votre distribution.
Set path to custom Hadoop configuration JAR : si vous utilisez une connexion définie dans le Repository pour vous connecter à votre cluster Cloudera ou Hortonworks, cochez cette case dans l'assistant du Repository. Dans le champ qui s'affiche, spécifiez le chemin d'accès au fichier Jar fournissant les paramètres de connexion à votre environnement. Ce fichier doit être accessible depuis la machine sur laquelle votre Job est exécuté.
Ce genre de fichier Jar de configuration Hadoop est automatiquement généré lorsque vous construisez un Job Big Data dans le Studio Talend. Le fichier Jar est nommé suivant ce modèle par défaut :
```
hadoop-conf-[name_of_the_metadata_in_the_repository]_[name_of_the_context].jar
```
Vous pouvez également télécharger ce fichier Jar depuis la console Web de votre cluster ou simplement créer un fichier Jar en plaçant les fichiers de configuration à la racine de votre fichier Jar. Par exemple :
```
hdfs-sidt.xml
core-site.xml
```
Les paramètres de votre fichier Jar personnalisé écrasent les paramètres renseignés dans le champ Spark configuration. Ils écrasent également la configuration définie dans les composants de configuration, comme le tHDFSConfiguration ou le tHBaseConfiguration, lorsque le système de stockage associé, tel que HDFS, HBase ou Hive est natif Hadoop. Ils n'écrasent pas la configuration définie dans les composants de configuration pour le système de stockage tiers, comme le tAzureFSConfiguration.
Si vous accédez au cluster Hadoop fonctionnant avec la sécurité Kerberos, cochez cette case, puis saisissez les noms Principal Name de Kerberos pour le service Resource Manager et le service Job History dans les champs affichés. Cela vous permet d'utiliser votre nom d'utilisateur ou d'utilisatrice pour vous authentifier, en les comparant aux informations stockées dans Kerberos. Ces principaux se trouvent dans les fichiers de configuration de votre distribution, comme yarn-site.xml et mapred-site.xml.

Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un Talend JobServer.

l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser.
Le champ User name est disponible lorsque vous n'utilisez pas Kerberos pour vous authentifier. Dans le champ User name, saisissez votre identifiant pour cette distribution. Si vous laissez le champ vide, le nom de la machine hébergeant le Studio Talend sera utilisé.
Cochez la case Wait for the Job to complete pour que votre Studio Talend ou, si vous utilisez le Talend JobServer, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.

Vérifiez que le nom d'utilisateur ou d'utilisatrice en mode Yarn client est le même que celui saisi dans le tS3Configuration, le composant utilisé pour fournir des informations de connexion S3 à Spark.

En mode Yarn client, la liste Property type s'affiche et vous permet de sélectionner une connexion à Hadoop établie depuis le Repository, si vous avez créé cette connexion dans le Repository. Le Studio Talend réutilise l'ensemble des informations de connexion pour ce Job.
Si vous devez exécuter depuis Windows, il est recommandé de spécifier où le programme winutils.exe à utiliser est stocké.
- Si vous savez où se trouve le fichier winutils.exe et que vous souhaitez l'utiliser, cochez la case Define the Hadoop home directory et saisissez le répertoire dans lequel est stocké winutils.exe.
- Sinon, laissez cette case décochée. Le Studio Talend en génère un par lui-même et l'utilise pour le Job.
Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio Talend stocke, dans le système local, les fichiers temporaires comme les fichiers JAR à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Ainis, si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.

Résultats

Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :
- Personnaliser Spark pour les Jobs Apache Spark Batch.
- Personnaliser Spark pour les Jobs Apache Spark Streaming.
Il est recommandé d'activer le système de log et de points de contrôle Spark, dans l'onglet de configuration de Spark, dans la vue Run de votre Job Spark, afin de permettre de déboguer et reprendre votre Job Spark lorsqu'une erreur survient :
- Logs et points de contrôle des activités de votre Job Spark Apache

Configuration des paramètres de connexion à EMR - Cloud - 8.0

Amazon S3

Procédure

Résultats