Définir la connexion à Spark dans un script de Job - Cloud - 7.3

Guide de référence des scripts de Jobs Talend

Version
Cloud
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Talend CommandLine
Content
Création et développement > Création de Jobs
Last publication date
2023-09-13
Utilisez la fonction addElementParameters{} dans la fonction addParameters{} pour définir la connexion à Spark dans un script de Job.

Propriétés de addElementParameters {}

Propriétés relatives à la sélection du cluster Spark à utiliser :

Fonction/paramètre Description Obligatoire ?

SPARK_LOCAL_MODE

Saisissez "true" pour exécuter votre Job Spark en mode local. Par défaut, la valeur est "false", ce qui signifie utiliser un cluster distant.

En mode local, le Studio construit l'environnement Spark en lui-même à la volée pour exécuter le Job dedans. Chaque processeur de la machine locale est utilisé comme worker Spark pour effectuer les calculs.

Dans ce mode, votre système de fichiers local est utilisé. Désactivez les composants de configuration comme le tS3Configuration ou le tHDFSConfiguration fournissant les informations de connexion à un système de fichiers distant, si vous avez placé ces composants dans votre Job.

Vous pouvez exécuter votre Job sans configuration supplémentaire.

Oui

SPARK_LOCAL_VERSION

Saisissez la version de Spark à utiliser en mode local. Cette propriété est utile uniquement si vous avez saisi "true" pour SPARK_LOCAL_MODE.

Le Studio ne supporte pas toutes les versions de Spark inférieures à 2.0 en mode local. Par exemple, saisissez la valeur "SPARK_2_1_0".

Oui, quand Spark est utilisé en mode local.

DISTRIBUTION

Saisissez le nom du fournisseur de votre distribution.

Selon votre distribution, saisissez l'une des valeurs suivantes :
  • "CLOUDERA"

  • "CLOUDERA_ALTUS"

  • "GOOGLE_CLOUD_DATAPROC"

  • "HORTONWORKS"

  • "MAPR"

  • "MICROSOFT_HD_INSIGHT"

Oui, lorsque vous n'utilisez ni le mode local de Spark, ni la distribution Amazon EMR.

SPARK_VERSION

Saisissez la version de votre distribution.

La liste suivante fournit des formats d'exemple pour chaque distribution disponible :
  • "Cloudera_CDH5_12"

  • "Cloudera_Altus_CDH5_11"

  • "DATAPROC_1_1"

  • "HDP_2_6"

  • "MAPR600"

  • "MICROSOFT_HD_INSIGHT_3_6"

  • "EMR_5_5_0"

Pour plus d'informations concernant les versions des distributions supportées par Talend, consultez la section Versions des distributions des plateformes Big Data supportées par les Jobs Talend dans le Guide d'installation Talend.

Oui, quand vous n'utilisez pas le mode local de Spark.

SUPPORTED_SPARK_VERSION

Saisissez la version de Spark utilisée par votre distribution. Par exemple, "SPARK_2_1_0".

Oui, quand vous n'utilisez pas le mode local de Spark.

SPARK_API_VERSION

Saisissez "SPARK_200", la version de l'API Spark utilisée par Talend.

Oui

SET_HDP_VERSION

Saisissez "true" si votre cluster Hortonworks utilise la variable hdp.version pour stocker sa version ; sinon, saisissez "false". Contactez l'administrateur de votre cluster si vous n'êtes pas sûr de connaître cette information.

Oui, lorsque vous utilisez Hortonworks.

HDP_VERSION

Saisissez la version d'Hortonwork à utiliser, par exemple, "\"2.6.0.3-8\"". Contactez l'administrateur de votre cluster si vous n'êtes pas sûr de connaître cette information.

Vous devez ajouter le numéro de version dans le fichier yarn-site.xml de votre cluster, également. Dans cet exemple, ajoutez hdp.version=2.6.0.3-8.

Oui, lorsque vous avez saisi "true" pour SET_HDP_VERSION.

SPARK_MODE

Saisissez le mode dans lequel votre cluster Spark a été implémenté.

Selon votre situation, saisissez l'une des valeurs suivantes :
  • "CLUSTER" : signifie qu'il s'exécute en mode Spark Standalone.

  • "YARN_CLIENT" : signifie qu'il s'exécute en mode YARN Client.

Oui, lorsque vous n'utilisez pas le mode local de Spark.

Propriétés relatives à la configuration de la connexion à Spark :

Fonction/paramètre Description Obligatoire ?

RESOURCE_MANAGER

Saisissez l'adresse du service ResourceManager du cluster Hadoop à utiliser.

Oui, si vous utilisez le mode YARN Client.

SET_SCHEDULER_ADDRESS

Saisissez "true" si votre cluster possède un ordonnanceur (Scheduler) pour le ResourceManager. Sinon, saisissez "false".

Oui, si vous utilisez le mode YARN Client.

RESOURCEMANAGER_SCHEDULER_ADDRESS

Saisissez l'adresse de l'ordonnanceur (Scheduler).

Oui, lorsque vous avez saisi "true" pour SET_SCHEDULER_ADDRESS.

SET_JOBHISTORY_ADDRESS

Saisissez "true" si votre cluster possède un service JobHistory. Sinon, saisissez "false".

Oui, si vous utilisez le mode YARN Client.

JOBHISTORY_ADDRESS

Saisissez l'emplacement du serveur de JobHistory du cluster Hadoop à utiliser. Cela permet de stocker les informations relatives aux métriques du Job courant sur le serveur JobHistory.

Oui, lorsque vous avez saisi "true" pour SET_JOBHISTORY_ADDRESS.

SET_STAGING_DIRECTORY

Saisissez "true" si votre cluster possède un répertoire de préparation pour stocker les fichiers temporaires créés par l'exécution des programmes. Sinon, saisissez "false".

Oui, si vous utilisez le mode YARN Client.

STAGING_DIRECTORY

Saisissez le chemin d'accès au répertoire, par exemple, "\"/user\"". Ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration comme yarn-site.xml ou mapred-site.xml de votre distribution.

Oui, lorsque vous avez saisi "true" pour SET_STAGING_DIRECTORY.

HDINSIGHT_ENDPOINT

Saisissez l'endpoint de votre cluster HDInsight. Par exemple "\"https://mycluster.azurehdinsight.net\"".

Oui, lorsque vous utilisez la distribution associée.

HDINSIGHT_USERNAME et HDINSIGHT_PASSWORD

  • L'identifiant Username est celui défini lors de la création de votre cluster. Vous pouvez le trouver dans le panneau SSH + Cluster login, dans votre cluster.
  • Le mot de passe Password est défini lors de la création de votre cluster HDInsight pour authentification dans ce cluster.

Par exemple, "\"talendstorage\"" comme identifiant et "my_password" comme mot de passe.

Oui, lorsque vous utilisez la distribution associée.

LIVY_HOST

  • La valeur du paramètre Hostname de Livy est l'URL de votre cluster HDInsight. Cette URL se trouve dans le panneau Overview, dans votre cluster. Saisissez cette URL sans la partie https://.
  • Le port par défaut Port est 443.
  • L'identifiant Username est celui défini lors de la création de votre cluster. Vous pouvez le trouver dans le panneau SSH + Cluster login, dans votre cluster.
Pour plus d'informations concernant le service Livy utilisé par HDInsight, consultez Use Apache Spark REST API to submit remote jobs to an HDInsight Spark cluster (en anglais).

Oui, lorsque vous utilisez la distribution associée, HDInsight.

LIVY_PORT

Saisissez le numéro de port de votre service Livy. Par défaut, le numéro du port est "\"443\"".

Oui, lorsque vous utilisez la distribution associée, HDInsight.

LIVY_USERNAME

Saisissez votre identifiant HDinsight, par exemple, "\"my_hdinsight_account\"".

Oui, lorsque vous utilisez la distribution associée, HDInsight.

HDINSIGHT_POLLING_INTERVAL_DURATION

Saisissez l'intervalle de temps (en millisecondes) à la fin duquel vous souhaitez que le Studio demande à Spark le statut de votre Job. Par défaut, l'intervalle de temps est 30000, soit 30 secondes.

Non. Si vous ne spécifiez pas ce paramètre, la valeur par défaut est utilisée avec la distribution associée, HDInsight.

HDINSIGHT_MAX_MISSING_STATUS

Saisissez le nombre maximal de tentatives de demandes de statut du Studio lorsqu'il n'y a pas de réponse. Par défaut, le nombre de tentatives est de 10.

Non. Si vous ne spécifiez pas ce paramètre, la valeur par défaut est utilisée avec la distribution associée, HDInsight.

WASB_HOST

Saisissez l'adresse de votre blob Windows Azure Storage, par exemple, "\"https://my_storage_account_name.blob.core.windows.net\"".

Oui, lorsque vous utilisez la distribution associée, HDInsight.

WASB_CONTAINER

Saisissez le nom du conteneur à utiliser, par exemple, "\"talend_container\"".

Oui, lorsque vous utilisez la distribution associée, HDInsight.

REMOTE_FOLDER

Saisissez l'emplacement dans lequel stocker le Job et ses bibliothèques dépendantes dans ce compte Azure Storage, par exemple, "\"/user/ychen/deployment_blob\"".

Oui, lorsque vous utilisez la distribution associée, HDInsight.

SPARK_HOST

Saisissez l'URI du Master Spark du cluster Hadoop à utiliser, par exemple "\"spark://localhost:7077\"".

Oui, lorsque vous utilisez le mode Standalone de Spark.

SPARK_HOME

Saisissez l'emplacement de l'exécutable Spark installé dans le cluster Hadoop à utiliser, par exemple "\"/usr/lib/spark\"".

Oui, lorsque vous utilisez le mode Standalone de Spark.

DEFINE_HADOOP_HOME_DIR

Si vous devez exécuter depuis Windows, il est recommandé de spécifier où le programme winutils.exe à utiliser est stocké.

Si vous souhaitez savoir où trouver votre fichier winutils.exe et l'utiliser, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous utilisez une distribution ne s'exécutant pas dans le Cloud.

HADOOP_HOME_DIR

Saisissez l'emplacement où est stocké votre répertoire winutils.exe, par exemple, "\"C:/Talend/winutils\"".

Oui, lorsque vous avez saisi "true" pour DEFINE_HADOOP_HOME_DIR.

DEFINE_SPARK_DRIVER_HOST

En mode YARN Client de Spark, si le cluster Spark ne peut reconnaître lui-même la machine sur laquelle le Job est lancé, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous utilisez une distribution ne s'exécutant pas dans le Cloud et que le mode Spark est YARN Client.

SPARK_DRIVER_HOST

Saisissez le nom d'hôte ou l'adresse IP de cette machine, par exemple, "\"127.0.0.1\"". Cela permet au Master Spark et à ses Workers de reconnaître la machine où se trouve le Job et donc son pilote.

Notez que, dans cette situation, vous devez également ajouter le nom et l'adresse IP de cette machine dans son fichier host.

Oui, lorsque vous avez saisi "true" pour DEFINE_SPARK_DRIVER_HOST.

GOOGLE_PROJECT_ID

Saisissez l'ID de votre projet Google Cloud Platform.

Par exemple, "\"my-google-project\"".

Oui, lorsque vous utilisez la distribution associée.

GOOGLE_CLUSTER_ID

Saisissez l'ID de votre cluster Dataproc à utiliser.

Par exemple, "\"my-cluster-id\"".

Oui, lorsque vous utilisez la distribution associée.

GOOGLE_REGION

Saisissez les régions dans lesquelles sont utilisées les ressources de calcul et dans lesquelles sont stockées et traitées les données. Si vous n'avez pas besoin de spécifier une région en particulier, laissez la valeur "\"global\"".

Oui, lorsque vous utilisez la distribution associée.

GOOGLE_JARS_BUCKET

Comme un Job Talend nécessite ses fichiers .jar dépendants pour être exécuté, spécifiez le répertoire Google Storage dans lequel ces fichiers .jar sont transférés afin que votre Job accède à ces fichiers lors de l'exécution.

Le répertoire à saisir doit se terminer par une barre oblique (/). Si le répertoire n'existe pas, un répertoire est créé à la volée mais le bucket à utiliser doit déjà exister.

Par exemple, "\"gs://my-bucket/talend/jars/\"".

Oui, lorsque vous utilisez la distribution associée.

DEFINE_PATH_TO_GOOGLE_CREDENTIALS

Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur·rice pour accéder à Google Cloud Platform, saisissez "false". Dans cette situation, cette machine est souvent votre machine locale.

Lorsque vous lancez votre Job depuis une machine distante, comme un serveur de Jobs, saisissez "true".

Oui, lorsque vous utilisez la distribution associée.

PATH_TO_GOOGLE_CREDENTIALS

Saisissez l'emplacement du répertoire dans lequel ce fichier JSON est stocké sur la machine distante. Souvent, cet emplacement est le Jobserver.

Par exemple, "\"/user/ychen/my_credentials.json\"".

Oui, lorsque vous avez saisi "true" pour DEFINE_PATH_TO_GOOGLE_CREDENTIALS.

ALTUS_SET_CREDENTIALS

Si vous souhaitez fournir vos identifiants Altus au sein de votre Job, saisissez "true".

Si vous souhaitez fournir vos identifiants Altus séparément, par exemple manuellement à l'aide de la commande altus configure dans votre, saisissez "false".

Oui, lorsque vous utilisez la distribution associée.

ALTUS_ACCESS_KEY et ALTUS_SECRET_KEY

Saisissez votre clé d'accès à Altus et le répertoire pointant vers votre fichier de clé secrète Altus.

Par exemple, "\"my_access_key\"" et "\"/user/ychen/my_secret_key_file.

Oui, lorsque vous avez saisi "true" pour ALTUS_SET_CREDENTIALS.

ALTUS_CLI_PATH

Saisissez le chemin d'accès au client Cloudera Altus, installé et activé sur la machine sur laquelle est exécuté votre Job. En environnement de production, cette machine est généralement un Jobserver Talend.

Par exemple, "\"/opt/altuscli/altusclienv/bin/altus\"".

Oui, lorsque vous utilisez la distribution associée.

ALTUS_REUSE_CLUSTER

Saisissez "true" pour utiliser un cluster Cloudera Altus existant dans votre service Cloud. Sinon, saisissez "false" pour permettre au Job de créer un cluster à la volée.

Oui, lorsque vous utilisez la distribution associée.

ALTUS_CLUSTER_NAME

Saisissez le nom du cluster à utiliser.

Par exemple, "\"talend-altus-cluster\"".

Oui, lorsque vous utilisez la distribution associée.

ALTUS_ENVIRONMENT_NAME

Saisissez le nom de l'environnement Cloudera Altus à utiliser pour définir les ressources allouées au cluster.

Par exemple, "\"talend-altus-cluster\"".

Oui, lorsque vous utilisez la distribution associée.

ALTUS_CLOUD_PROVIDER

Saisissez le service Cloud exécutant votre cluster Cloudera Altus. Pour le moment, seul AWS est supporté. Saisissez "\"AWS\"".

Oui, lorsque vous utilisez la distribution associée.

ALTUS_DELETE_AFTER_EXECUTION

Saisissez "true" si vous souhaitez supprimer le cluster donné après exécution de votre Job. Sinon, saisissez "false".

Oui, lorsque vous utilisez la distribution associée.

ALTUS_S3_ACCESS_KEY et ALTUS_S3_SECRET_KEY

Renseignez les informations d'authentification requises pour vous connecter au bucket Amazon S3 à utiliser.

Oui, lorsque vous avez saisi "\"AWS\"" pour ALTUS_CLOUD_PROVIDER.

ALTUS_S3_REGION

Saisissez la région AWS à utiliser. Par exemple "\"us-east-1\"".

Oui, lorsque vous avez saisi "\"AWS\"" pour ALTUS_CLOUD_PROVIDER.

ALTUS_BUCKET_NAME

Saisissez le nom du bucket à utiliser pour stocker les dépendances de votre Job. Ce bucket doit déjà exister. Par exemple "\"my-bucket\"".

Oui, lorsque vous avez saisi "\"AWS\"" pour ALTUS_CLOUD_PROVIDER.

ALTUS_JARS_BUCKET

Saisissez l'emplacement du répertoire dans lequel stocker les dépendances de votre Job dans ce bucket donné, par exemple, "\"altus/jobjar\"". Ce répertoire est créé s'il n'existe pas lors de l'exécution.

Oui, lorsque vous avez saisi "\"AWS\"" pour ALTUS_CLOUD_PROVIDER.

ALTUS_USE_CUSTOM_JSON

Saisissez "true si vous devez modifier manuellement le code JSON pour configurer votre cluster Altus. Sinon, saisissez "false".

Oui, lorsque vous utilisez la distribution associée.

ALTUS_CUSTOM_JSON

Saisissez votre code JSON personnalisé, par exemple "{my_json_code}".

Oui, lorsque vous avez saisi "true pour ALTUS_USE_CUSTOM_JSON.

ALTUS_INSTANCE_TYPE

Saisissez le type d'instance pour toutes les instances dans le cluster. Tous les nœuds déployés dans ce cluster utilisent le même type d'instance. Par exemple "\"c4.2xlarge\"".

Oui, lorsque vous utilisez la distribution associée.

ALTUS_WORKER_NODE

Saisissez le nombre de nœuds workers à créer pour le cluster.

Par exemple, "\"10\"".

Oui, lorsque vous utilisez la distribution associée.

ALTUS_CLOUDERA_MANAGER_USERNAME

Saisissez les informations d'authentification à votre service Cloudera Manager.

Par exemple, "\"altus\"".

Oui, lorsque vous utilisez la distribution associée.

SPARK_SCRATCH_DIR

Saisissez l'emplacement du répertoire, dans le système local, où stocker les fichiers temporaires, comme les dépendances de Job à transférer, par exemple "\"/tmp\"".

Oui

STREAMING_BATCH_SIZE

Saisissez l'intervalle de temps (ms) à la fin duquel le Job revoit la source de données pour identifier les modifications et traite les nouveaux micro-batchs, par exemple, "1000".

Oui, lorsque vous développez un Job Spark Streaming.

DEFINE_DURATION

Si vous avez besoin de définir un délai (ms) avant suspension du streaming, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous développez un Job Spark Streaming.

STREAMING_DURATION

Saisissez la période de temps à la fin de laquelle le Job Streaming s'arrête automatiquement, par exemple, "10000".

Oui, lorsque vous avez saisi "true pour DEFINE_DURATION.

SPARK_ADVANCED_PROPERTIES

Saisissez le code pour utiliser d'autres propriétés Hadoop ou Spark relatives.

Par exemple :
{ PROPERTY : "\"spark.yarn.am.extraJavaOptions\"", VALUE : "\"-Dhdp.version=2.4.0.0-169\"",
                        BUILDIN : "TRUE" }
                     

Non.

Propriétés relatives à la définition de la configuration de la sécurité :

Fonction/paramètre Description Obligatoire ?

USE_KRB

Saisissez "true" si le cluster à utiliser utilise Kerberos pour la sécurité. Sinon, saisissez "false".

Oui

RESOURCEMANAGER_PRINCIPAL

Saisissez les noms des Principaux de Kerberos pour le service ResourceManager, par exemple, "\"yarn/_HOST@EXAMPLE.COM\"".

Oui, lorsque vous utilisez Kerberos et le mode YARN Client.

JOBHISTORY_PRINCIPAL

Saisissez les noms des Principaux de Kerberos pour le service JobHistory, par exemple, "\"mapred/_HOST@EXAMPLE.COM\"".

Oui, lorsque vous utilisez Kerberos et le mode YARN Client.

USE_KEYTAB

Si vous devez utiliser un fichier Keytab Kerberos pour vous connecter, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous utilisez Kerberos.

PRINCIPAL

Saisissez le Principal à utiliser, par exemple "\"hdfs\"".

Oui, lorsque vous utilisez un fichier Keytab Kerberos.

KEYTAB_PATH

Saisissez le chemin d'accès au fichier Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un serveur de Jobs Talend.

Par exemple, "\"/tmp/hdfs.headless.keytab\"".

Oui, lorsque vous utilisez un fichier Keytab Kerberos.

USERNAME

Saisissez l'identifiant de connexion à votre distribution. Si vous laissez ce champ vide, c'est-à-dire "\"\"", le nom d'utilisateur ou d'utilisatrice de la machine sur laquelle le Job s'exécute sera utilisé.

Oui, lorsque vous n'utilisez pas Kerberos.

USE_MAPRTICKET

Si le cluster MapR à utiliser est sécurisé via le mécanisme d'authentification par ticket MapR, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous utilisez un cluster MapR.

MAPRTICKET_PASSWORD

Saisissez le mot de passe à utiliser pour vous connecter à MapR, par exemple, "my_password".

Oui, lorsque vous n'utilisez pas Kerberos mais le mécanisme d'authentification par ticket MapR.

MAPRTICKET_CLUSTER

Saisissez le nom du cluster MapR auquel vous connecter, par exemple, "\"demo.mapr.com\"".

Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR.

MAPRTICKET_DURATION

Saisissez la période de temps (en secondes) durant laquelle le ticket est valide, par exemple, "86400L".

Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR.

SET_MAPR_HOME_DIR

Si l'emplacement des fichiers de configuration MapR a été modifié dans le cluster, c'est-à-dire, si le répertoire Home de MapR a été modifié, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR.

MAPR_HOME_DIR

Saisissez l'emplacement du nouveau répertoire Home, par exemple, "\"/opt/mapr/custom/\"".

Oui, lorsque vous avez saisi "true pour SET_MAPR_HOME_DIR.

SET_HADOOP_LOGIN

Si le module de connexion a été modifié dans le fichier MapR de configuration de la sécurité mapr.login.conf, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR.

HADOOP_LOGIN

Saisissez le nom du module à appeler depuis le fichier mapr.login.conf, par exemple, "\"kerberos\"" signifie appeler le module hadoop_kerberos.

Oui, lorsque vous avez saisi "true pour SET_HADOOP_LOGIN.

Propriétés relatives à la personnalisation de Spark :

Fonction/paramètre Description Obligatoire ?

ADVANCED_SETTINGS_CHECK

Saisissez "true" si vous devez optimiser l'allocation des ressources à utiliser pour exécuter vos Jobs. Sinon, saisissez "false".

Oui

SPARK_DRIVER_MEM et SPARK_DRIVER_CORES

Saisissez la taille de mémoire et le nombre de cœurs à utiliser par le pilote du Job courant, par exemple "\"512m\"", pour la mémoire et "\"1\"" pour le nombre de cœurs.

Oui, lorsque vous personnalisez Spark en mode Standalone.

SPARK_YARN_AM_SETTINGS_CHECK

Saisissez "true" pour définir les propriétés à personnaliser pour l'ApplicationMaster de votre cluster YARN. Sinon, saisissez "false".

Oui, lorsque vous personnalisez Spark en mode YARN Client.

SPARK_YARN_AM_MEM et SPARK_YARN_AM_CORES

Saisissez la taille de mémoire à utiliser par l'ApplicationMaster, par exemple, "\"512m\"", pour la mémoire et "\"1\"" pour le nombre de cœurs.

Oui, lorsque vous avez saisi "true" pour SPARK_YARN_AM_SETTINGS_CHECK.

SPARK_EXECUTOR_MEM

Saisissez la taille de mémoire à utiliser pour chaque exécuteur Spark, par exemple, "\"512m\"".

Oui, lorsque vous personnalisez Spark.

SET_SPARK_EXECUTOR_MEM_OVERHEAD

Saisissez "true" si vous devez allouer un montant de mémoire hors tas (off-heap) (en Mo) par exécuteur. Sinon, saisissez "false".

Oui, lorsque vous personnalisez Spark en mode YARN Client.

SPARK_EXECUTOR_MEM_OVERHEAD

Saisissez le montant de mémoire hors tas (off-heap) en Mo à allouer pour chaque exécuteur.

Oui, lorsque vous avez saisi "true" pour SET_SPARK_EXECUTOR_MEM_OVERHEAD.

SPARK_EXECUTOR_CORES_CHECK

Si vous devez définir le nombre de cœurs à utiliser par exécuteur, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous personnalisez Spark.

SPARK_EXECUTOR_CORES

Saisissez le nombre de cœurs à utiliser par exécuteur, par exemple, "\"1\"".

Oui, lorsque vous avez saisi "true" pour SPARK_EXECUTOR_CORES_CHECK.

SPARK_YARN_ALLOC_TYPE

Sélectionnez la manière dont vous souhaitez que YARN alloue des ressources parmi les exécuteurs.

Saisissez l'une des valeurs suivantes :
  • "AUTO" : vous laissez YARN utiliser son nombre d'exécuteurs par défaut, Le nombre d’exécuteurs par défaut est 2.

  • "FIXED" : vous devez définir le nombre d'exécuteurs à utiliser avec SPARK_EXECUTOR_INSTANCES.

  • "DYNAMIC" : YARN modifie le nombre d'exécuteurs afin de s'adapter à la charge de travail. Vous devez définir SPARK_YARN_DYN_INIT, SPARK_YARN_DYN_MIN et SPARK_YARN_DYN_MAX.

Oui, lorsque vous personnalisez Spark en mode YARN Client.

SPARK_EXECUTOR_INSTANCES

Saisissez le nombre d'exécuteurs à utiliser par YARN, par exemple, "\"2\"".

Oui, lorsque vous avez saisi "FIXED" pour SPARK_YARN_ALLOC_TYPE.

SPARK_YARN_DYN_INIT, SPARK_YARN_DYN_MIN et SPARK_YARN_DYN_MAX

Définissez l'échelle de cette allocation dynamique en définissant ces trois propriétés. Par exemple, "\"1\"" comme nombre initial d'exécuteurs, "\"0\"" comme nombre minimal d'exécuteurs et "\"MAX\"" comme nombre maximal d'exécuteurs.

Oui, lorsque vous avez saisi "DYNAMIC" pour SPARK_YARN_ALLOC_TYPE.

WEB_UI_PORT_CHECK

Si vous devez modifier le port par défaut de l'application Web de Spark, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous personnalisez Spark.

WEB_UI_PORT

Saisissez le numéro du port à utiliser pour l'application Web de Spark, par exemple, "\"4040\"".

Oui, lorsque vous avez saisi "true" pour WEB_UI_PORT_CHECK.

SPARK_BROADCAST_FACTORY

Saisissez l'implémentation du broadcast à utiliser pour mettre les variables en cache sur chaque machine de Worker.

Saisissez l'une des valeurs suivantes :
  • "AUTO"

  • "TORRENT"

  • "HTTP"

Oui, lorsque vous personnalisez Spark.

CUSTOMIZE_SPARK_SERIALIZER

Si vous devez importer un sérialiseur Spark externe, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous personnalisez Spark.

SPARK_SERIALIZER

Saisissez le nom de la classe entièrement qualifié du sérialiseur à utiliser, par exemple "\"org.apache.spark.serializer.KryoSerializer\"".

Oui, lorsque vous avez saisi "true" pour CUSTOMIZE_SPARK_SERIALIZER.

ENABLE_BACKPRESSURE

Si vous devez activer la fonctionnalité Backpressure de Spark, saisissez "true". Sinon, saisissez "false".

Cette fonctionnalité est disponible à partir de la version 1.5 de Spark. Une fois activée, Spark trouve automatiquement le taux de réception optimal et adapte dynamiquement ce taux en fonction des retards d'ordonnancement et des temps de traitement batch, afin de recevoir les données au rythme auquel il peut les traiter.

Oui, lorsque vous personnalisez Spark pour un Job Spark Streaming.

Propriétés relatives aux logs d'exécution de vos Jobs :

Fonction/paramètre Description Obligatoire ?

ENABLE_SPARK_EVENT_LOGGING

Saisissez "true" si vous devez rendre persistants les logs d'application Spark de ce Job, dans le système de fichiers de votre cluster YARN. Sinon, saisissez "false".

Oui, lorsque vous utilisez Spark en mode YARN Client.

COMPRESS_SPARK_EVENT_LOGS

Si vous devez compresser les logs, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous avez saisi "true" pour ENABLE_SPARK_EVENT_LOGGING.

SPARK_EVENT_LOG_DIR

Saisissez l'emplacement du répertoire où sont enregistrés les événements Spark, par exemple, "\"hdfs://namenode:8020/user/spark/applicationHistory\"".

Oui, lorsque vous avez saisi "true" pour ENABLE_SPARK_EVENT_LOGGING.

SPARKHISTORY_ADDRESS

saisissez l'emplacement du serveur de l'historique, par exemple, "\"sparkHistoryServer:18080\"".

Oui, lorsque vous avez saisi "true" pour ENABLE_SPARK_EVENT_LOGGING.

USE_CHECKPOINT

Si vous souhaitez que le Job résiste aux échecs, saisissez "true" pour activer l'opération Spark de point de contrôle. Sinon, saisissez "false".

Oui.

CHECKPOINT_DIR

Saisissez l'emplacement du répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul. Par exemple, "\"file:///tmp/mycheckpoint\"".

Oui, lorsque vous avez saisi "true" pour SET_SPARK_EXECUTOR_MEM_OVERHEAD.

Propriétés relatives à la configuration de Cloudera Navigator :

Si vous utilisez Cloudera V5.5+ pour exécuter vos Jobs MapReduce ou vos Jobs Apache Spark Batch, vous pouvez utiliser Cloudera Navigator pour visualiser le lignage d'un flux de données en particulier pour découvrir comment ces données sont générées par un Job.

Fonction/paramètre Description Obligatoire ?

USE_CLOUDERA_NAVIGATOR

Saisissez "true" si vous souhaitez utiliser Cloudera Navigator. Sinon, saisissez "false".

Oui, lorsque vous utilisez Spark avec Cloudera.

CLOUDERA_NAVIGATOR_USERNAME et CLOUDERA_NAVIGATOR_PASSWORD

Saisissez les identifiants à utiliser pour vous connecter à votre Cloudera Navigator. Par exemple, "\"username\"" comme identifiant et "password" comme mot de passe.

Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR.

CLOUDERA_NAVIGATOR_URL

Saisissez l'emplacement du Cloudera Navigator auquel vous connecter, par exemple, "\"http://localhost:7187/api/v8/\"".

Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR.

CLOUDERA_NAVIGATOR_METADATA_URL

Saisissez l'emplacement des métadonnées du Navigator, par exemple, "\"http://localhost:7187/api/v8/metadata/plugin\"".

Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR.

CLOUDERA_NAVIGATOR_CLIENT_URL

Saisissez l'emplacement du client du Navigator, par exemple, "\"http://localhost\"".

Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR.

CLOUDERA_NAVIGATOR_AUTOCOMMIT

Si vous souhaitez que Cloudera Navigator génère le lignage du Job courant à la fin de son exécution, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR.

CLOUDERA_NAVIGATOR_DISABLE_SSL_VALIDATION

Si vous ne souhaitez pas utiliser le processus de validation SSL lorsque votre Job se connecte à Cloudera Navigator, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR.

CLOUDERA_NAVIGATOR_DIE_ON_ERROR

Si vous souhaitez arrêter l'exécution du Job lorsque la connexion à votre Cloudera Navigator échoue, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR.

Propriétés relatives à la configuration d'Hortonworks Atlas :

Si vous utilisez Hortonworks Data Platform V2.4 ou supérieure pour exécuter vos Jobs Spark Batch Jobs et qu'Apache Atlas est installé dans votre cluster Hortonworks, vous pouvez utiliser Atlas pour visualiser le lignage du flux de données spécifié et voir comment il a été généré par un Job.

Fonction/paramètre Description Obligatoire ?

USE_ATLAS

Saisissez "true" si vous souhaitez utiliser Atlas. Sinon, saisissez "false".

Oui, lorsque vous utilisez Spark avec Hortonworks.

ATLAS_USERNAME et ATLAS_PASSWORD

Saisissez vos identifiants de connexion à Atlas. Par exemple, "\"username\"" comme identifiant et "password" comme mot de passe.

Oui, lorsque vous avez saisi "true" pour USE_ATLAS.

ATLAS_URL

Saisissez l'emplacement de l'Atlas auquel se connecter, par exemple "\"http://localhost:21000\""

Oui, lorsque vous avez saisi "true" pour USE_ATLAS.

SET_ATLAS_APPLICATION_PROPERTIES

Si votre cluster Atlas contient des propriétés personnalisées, comme le SSL ou la suspension de la lecture, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous avez saisi "true" pour USE_ATLAS.

ATLAS_APPLICATION_PROPERTIES

Saisissez l'emplacement d'un répertoire sur votre machine locale, puis placez le fichier atlas-application.properties de votre Atlas dans ce répertoire. Par exemple, "\"/user/atlas/atlas-application.properties\"".

Ainsi, votre Job peut utiliser ces propriétés personnalisées.

Oui, lorsque vous avez saisi "true" pour SET_ATLAS_APPLICATION_PROPERTIES.

ATLAS_DIE_ON_ERROR

Si vous souhaitez arrêter l'exécution du Job lorsque des erreurs relatives à Atlas surviennent, saisissez "true". Sinon, saisissez "false".

Oui, lorsque vous avez saisi "true" pour USE_ATLAS.