Configuration des paramètres de connexion à HD Insight - 7.1

Spark Batch

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch
EnrichPlatform
Studio Talend

Terminez la configuration de la connexion HD Insight dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn cluster est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Procédure

  1. Saisissez les informations simples de connexion à Microsoft HD Insight :

    Livy configuration

    • La valeur du paramètre Hostname de Livy est l'URL de votre cluster HDInsight. Cette URL se trouve dans le panneau Overview, dans votre cluster. Saisissez cette URL sans la partie https://.
    • Le port par défaut Port est 443.
    • L'identifiant Username est celui défini lors de la création de votre cluster. Vous pouvez le trouver dans le panneau SSH + Cluster login, dans votre cluster.
    Pour plus d'informations concernant le service Livy utilisé par HD Insight, consultez Use Apache Spark REST API to submit remote jobs to an HDInsight Spark cluster (en anglais).

    HDInsight configuration

    • L'identifiant Username est celui défini lors de la création de votre cluster. Vous pouvez le trouver dans le panneau SSH + Cluster login, dans votre cluster.
    • Le mot de passe Password est défini lors de la création de votre cluster HDInsight pour authentification dans ce cluster.

    Windows Azure Storage configuration

    Saisissez l'adresse et les informations d'authentification du compte Azure Storage à utiliser. Dans cette configuration, vous ne définissez pas l'emplacement où lire ou écrire vos données métier, seulement où déployer votre Job. Utilisez toujours le système Azure Storage pour cette configuration.

    Dans le champ Container, saisissez le nom du conteneur à utiliser. Vous pouvez trouver les conteneurs disponibles dans le panneau Blob, dans le compte Azure Storage à utiliser.

    Dans le champ Deployment Blob, saisissez l'emplacement où vous souhaitez stocker le Job et ses bibliothèques dépendantes dans le compte Azure Storage.

    Dans le champ Hostname, saisissez l'endpoint du service du Blob primaire de votre compte Azure Storage, sans la partie https://. Vous pouvez trouver cet endpoint dans le panneau Properties de ce compte de stockage.

    Dans le champ Username, saisissez le nom du compte Azure Storage à utiliser.

    Dans le champ Password, saisissez la clé d'accès du compte Azure Storage à utiliser. Cette clé se trouve dans le panneau Access keys de ce compte de stockage.

  2. Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke, dans le système local, les fichiers temporaires comme les fichiers .jar à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.
  3. Cochez la case Wait for the Job to complete pour que votre Studio ou, si vous utilisez le JobServer Talend, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.

Résultats