Configuration des paramètres de connexion à HDInsight

Terminez la configuration de la connexion HDInsight dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn cluster est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Procédure

Saisissez les informations simples de connexion à Microsoft HDInsight :

Livy configuration	La valeur du paramètre Hostname de Livy est l'URL de votre cluster HDInsight. Cette URL se trouve dans le panneau Overview, dans votre cluster. Saisissez cette URL sans la partie https://. Le port par défaut Port est 443. L'identifiant Username est celui défini lors de la création de votre cluster. Vous pouvez le trouver dans le panneau SSH + Cluster login, dans votre cluster. Pour plus d'informations concernant le service Livy utilisé par HDInsight, consultez Use Apache Spark REST API to submit remote jobs to an HDInsight Spark cluster (en anglais).
Job status polling configuration	Dans le champ Poll interval when retrieving Job status (in ms), saisissez l'intervalle de temps (en millisecondes) à l'issue duquel vous souhaitez que le Studio interroge Spark au sujet du statut du Job. Par exemple, ce statut peut être Pending (en attente) ou Running (en cours d'exécution). Dans le champ Maximum number of consecutive statuses missing, saisissez le nombre maximal de tentatives du Studio pour obtenir un statut lorsqu'il n'y a pas de réponse.
HDInsight configuration	Saisissez l'adresse et les informations d'authentification du cluster Microsoft HDInsight à utiliser. Par exemple, l'adresse peut être `nom_de_votre_cluster_hdinsight.azurehdinsight.net` et les informations d'authentification peuvent être votre nom de compte Azure : `ychen`. Le Studio utilise ce service pour soumettre le Job au cluster HDInsight. Dans le champ Job result folder, saisissez l'emplacement où vous souhaitez stocker les résultats d'exécution du Job dans Azure Storage.
Windows Azure Storage configuration	Saisissez l'adresse et les informations d'authentification du compte Azure Storage ou ADLS Gen2 à utiliser. Dans cette configuration, vous ne définissez pas l'emplacement où lire ou écrire vos données métier, seulement où déployer votre Job. Dans le champ Container, saisissez le nom du conteneur à utiliser. Vous pouvez trouver les conteneurs disponibles dans le panneau Blob, dans le compte Azure Storage à utiliser. Dans le champ Deployment Blob, saisissez l'emplacement où vous souhaitez stocker le Job et ses bibliothèques dépendantes dans le compte Azure Storage. Dans le champ Hostname, saisissez l'endpoint du service du Blob primaire de votre compte Azure Storage, sans la partie https://. Vous pouvez trouver cet endpoint dans le panneau Properties de ce compte de stockage. Dans le champ Username, saisissez le nom du compte Azure Storage à utiliser. Dans le champ Password, saisissez la clé d'accès du compte Azure Storage à utiliser. Cette clé se trouve dans le panneau Access keys de ce compte de stockage.

Saisissez les informations simples de configuration :

Use local timezone	Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Note InformationsRemarque : Si vous décochez cette case, Spark utilise le fuseau horaire UTC. Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components	Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances. Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité. Note InformationsImportant : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case. Note InformationsRemarque : Les Jobs créés en 7.3 utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
Use timestamp for dataset components	Cochez cette case pour utiliser java.sql.Timestamp pour les dates. Note InformationsRemarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.

Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke, dans le système local, les fichiers temporaires comme les fichiers .jar à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Ainis, si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.
Cochez la case Wait for the Job to complete pour que votre Studio ou, si vous utilisez le JobServer Talend, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.
Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.

Résultats

Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :
- Personnaliser Spark pour les Jobs Apache Spark Batch.
- Personnaliser Spark pour les Jobs Apache Spark Streaming.
Il est recommandé d'activer le système de log et de points de contrôle Spark, dans l'onglet de configuration de Spark, dans la vue Run de votre Job Spark, afin de permettre de déboguer et reprendre votre Job Spark lorsqu'une erreur survient :
- Logs et points de contrôle des activités de votre Job Spark Apache

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici