Configuration des paramètres de connexion à HD Insight - 6.4

Microsoft HD Insight

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Distributions Hadoop > Microsoft HD Insight
EnrichPlatform
Studio Talend

Terminez la configuration de la connexion HD Insight dans l'onglet Spark configuration de la vue Run de votre Job. Cette configuration fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn client est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à Talend Data Fabric ou à un produit Big Data de Talend, et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Procédure

  1. Saisissez les informations simples de connexion à Microsoft HD Insight :

    Livy configuration

    Le nom d'hôte Hostname de Livy utilise la syntaxe suivante : your_spark_cluster_name.azurehdinsight.net. Pour plus d'informations concernant le service Livy utilisé par HD Insight, consultez Envoyer un traitement par lot Livy Spark.

    HDInsight configuration

    Saisissez les informations d'authentification information du cluster HD Insight à utiliser.

    Windows Azure Storage configuration

    Saisissez l'adresse et les informations d'authentification du compte Azure Storage à utiliser.

    Dans le champ Container, saisissez le nom du conteneur à utiliser.

    Dans le champ Deployment Blob, saisissez l'emplacement où vous souhaitez stocker le Job et ses bibliothèques dépendantes dans le compte Azure Storage.

  2. En mode Yarn client, la liste Property type s'affiche et vous permet de sélectionner une connexion à Hadoop établie depuis le Repository, si vous avez créé cette connexion dans le Repository. Le Studio réutilise l'ensemble des informations de connexion pour ce Job.
  3. Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke, dans le système local, les fichiers temporaires comme les fichiers .jar à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.

Résultats

Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :