Configuration des paramètres de connexion à HD Insight - 7.2

Spark Batch

EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch

Terminez la configuration de la connexion HD Insight dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn cluster est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Procédure

  1. Saisissez les informations simples de connexion à Microsoft HD Insight :

    Livy configuration

    • La valeur du paramètre Hostname de Livy est l'URL de votre cluster HDInsight. Cette URL se trouve dans le panneau Overview, dans votre cluster. Saisissez cette URL sans la partie https://.
    • Le port par défaut Port est 443.
    • L'identifiant Username est celui défini lors de la création de votre cluster. Vous pouvez le trouver dans le panneau SSH + Cluster login, dans votre cluster.
    Pour plus d'informations concernant le service Livy utilisé par HD Insight, consultez Use Apache Spark REST API to submit remote jobs to an HDInsight Spark cluster (en anglais).

    Job status polling configuration

    Dans le champ Poll interval when retrieving Job status (in ms), saisissez l'intervalle de temps (en millisecondes) à l'issue duquel vous souhaitez que le Studio interroge Spark au sujet du statut du Job. Par exemple, ce statut peut être Pending (en attente) ou Running (en cours d'exécution).

    Dans le champ Maximum number of consecutive statuses missing, saisissez le nombre maximal de tentatives du Studio pour obtenir un statut lorsqu'il n'y a pas de réponse.

    HDInsight configuration

    Saisissez l'adresse et les informations d'authentification du cluster Microsoft HD Insight à utiliser. Par exemple, l'adresse peut être nom_de_votre_cluster_hdinsight.azurehdinsight.net et les informations d'authentification peuvent être votre nom de compte Azure : ychen. Le Studio utilise ce service pour soumettre le Job au cluster HD Insight.

    Dans le champ Job result folder, saisissez l'emplacement où vous souhaitez stocker les résultats d'exécution du Job dans Azure Storage.

    Windows Azure Storage configuration

    Saisissez l'adresse et les informations d'authentification du compte Azure Storage ou ADLS Gen2 à utiliser. Dans cette configuration, vous ne définissez pas l'emplacement où lire ou écrire vos données métier, seulement où déployer votre Job.

    Dans le champ Container, saisissez le nom du conteneur à utiliser. Vous pouvez trouver les conteneurs disponibles dans le panneau Blob, dans le compte Azure Storage à utiliser.

    Dans le champ Deployment Blob, saisissez l'emplacement où vous souhaitez stocker le Job et ses bibliothèques dépendantes dans le compte Azure Storage.

    Dans le champ Hostname, saisissez l'endpoint du service du Blob primaire de votre compte Azure Storage, sans la partie https://. Vous pouvez trouver cet endpoint dans le panneau Properties de ce compte de stockage.

    Dans le champ Username, saisissez le nom du compte Azure Storage à utiliser.

    Dans le champ Password, saisissez la clé d'accès du compte Azure Storage à utiliser. Cette clé se trouve dans le panneau Access keys de ce compte de stockage.

  2. Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke, dans le système local, les fichiers temporaires comme les fichiers .jar à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.
  3. Cochez la case Wait for the Job to complete pour que votre Studio ou, si vous utilisez le JobServer Talend, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.

Résultats

  • Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :
    • pour les Jobs Spark Batch.

    • pour les Jobs Spark Streaming.

  • Il est recommandé d'activer le système de log et de points de contrôle Spark, dans l'onglet de configuration de Spark, dans la vue Run de votre Job Spark, afin de permettre de déboguer et reprendre votre Job Spark lorsqu'une erreur survient :
    • .