Configuration des paramètres de connexion à HD Insight - 7.0

Spark Batch

Version
7.0
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch

Terminez la configuration de la connexion HD Insight dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn cluster est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateur·trice·s ayant souscrit à Talend Data Fabric ou à un produit Big Data de Talend, et ne sont pas applicables aux utilisateur·trice·s de Talend Open Studio for Big Data.

Procédure

  1. Saisissez les informations simples de connexion à Microsoft HD Insight :

    Livy configuration

    Le nom de l'hôte (Hostname) de Livy utilise la syntaxe suivante : nom_de_votre_cluster_hdinsight.azurehdinsight.net. Pour plus d'informations concernant le service Livy utilisé par HD Insight, consultez Utiliser l’API REST Spark Apache pour envoyer des travaux à distance à un cluster Spark HDInsight.

    HDInsight configuration

    Saisissez les informations d'authentification du cluster HD Insight à utiliser.

    Windows Azure Storage configuration

    Saisissez l'adresse et les informations d'authentification du compte Azure Storage à utiliser. Dans cette configuration, vous ne définissez pas l'emplacement où lire ou écrire vos données métier, seulement où déployer votre Job. Utilisez toujours le système Azure Blob Storage pour cette configuration.

    Dans le champ Container, saisissez le nom du conteneur à utiliser.

    Dans le champ Deployment Blob, saisissez l'emplacement où vous souhaitez stocker le Job et ses bibliothèques dépendantes dans le compte Azure Storage.

  2. Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke, dans le système local, les fichiers temporaires comme les fichiers .jar à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.
  3. Cochez la case Wait for the Job to complete pour que votre Studio ou, si vous utilisez le JobServer Talend, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.

Résultats