Définir les paramètres de connexion à Azure Databricks pour les Jobs Spark

Terminez la configuration de la connexion à Databricks dans l'onglet Spark configuration (Configuration Spark) de la vue Run (Exécuter) de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Avant de commencer

Lors de l'exécution d'un Job Spark Streaming, seul un Job est autorisé à s'exécuter sur le même cluster Databricks à la fois.
Lors de l'exécution d'un Job Spark Batch, si vous avez coché la case Do not restart the cluster when submitting (Ne pas redémarrer le cluster après l'envoie), et uniquement dans ce cas, vous pouvez envoyer plusieurs Jobs en parallèle afin qu'ils s'exécutent sur le même cluster Databricks. Dans le cas contraire, étant donné que chaque Job redémarre automatiquement le cluster, les Jobs lancés en parallèle s'interrompent les uns les autres et provoquent un échec d'exécution.

Procédure

Saisissez les informations simples de configuration :

Use local timezone	Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Remarque : Si vous décochez cette case, Spark utilise le fuseau horaire UTC. Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components	Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances. Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité. Important : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case. Remarque : Les Jobs créés en 7.3 utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
Use timestamp for dataset components	Cochez cette case pour utiliser `java.sql.Timestamp` pour les dates. Remarque : Si vous laissez cette case décochée, `java.sql.Timestamp` ou `java.sql.Date` peut être utilisé, selon le modèle.

Dans la liste déroulante Cloud provider, sélectionnez Azure.
Dans la liste déroulante Run mode, sélectionnez le mode à utiliser pour exécuter votre Job sur un cluster Databricks lorsque vous exécutez votre Job dans le Studio Talend :
- Create and run now (Créer et exécuter maintenant) : un Job est créé et exécuté sur Databricks immédiatement. Avec ce mode, vous pouvez récupérer votre Job avec son ID dans votre espace de travail Databricks. Pour plus d'informations, consultez Run now, dans la documentation Databricks officielle (en anglais).
- Runs submit (Soumettre les exécutions) : une exécution unique est soumise sans créer de Job sur Databricks. Avec ce mode, rien ne s'affiche dans l'interface et aucun ID de Job n'est créé dans votre espace de travail Databricks. Pour plus d'informations, consultez Runs submit, dans la documentation Databricks officielle (en anglais).

Saisissez les informations simples de connexion à Databricks :

Standalone	Use pool (Utiliser un pool) : cochez cette case pour tirer parti d'un pool de Databricks. Le cas échéant, vous devez indiquer un identifiant de pool en lieu et place de l'identifiant de cluster dans la Spark Configuration (Configuration Spark) Vous devez également sélectionner Job cluster dans la liste déroulante Cluster type. Dans le champ Endpoint, saisissez l'adresse URL de votre espace de travail Azure Databricks. Vous pouvez trouver cette URL dans la Palette Overview de votre espace de travail Databricks sur votre portail Azure. Par exemple, cette URL peut se présenter comme ceci https://adb-$workspaceId.$random.azuredatabricks.net. Dans le champ Cluster ID, saisissez l'ID du cluster Databricks à utiliser. Cet ID est la valeur de la propriété spark.databricks.clusterUsageTags.clusterId de votre cluster Spark. Vous pouvez trouver cette propriété dans la liste des propriétés dans l'onglet Environment dans la vue Spark UI de votre cluster. Vous pouvez trouver cet ID dans l'URL de votre cluster Databricks. Il se trouve juste après cluster/ dans cette URL. Si l'option Use pool (Utiliser un pool) est sélectionnée, saisissez l'identifiant du pool de Databricks dans le champ Pool ID (identifiant de pool). Cet identifiant correspond à la valeur de la clé DatabricksInstancePoolId de votre pool. Elle se trouve sous la mention Tags (Mots-clés) de l'onglet Configuration de votre pool, ainsi que sous la même mention des clusters utilisés par le pool. Vous pouvez également trouver cet identifiant dans l'URL de votre pool Databricks. Il se trouve juste après cluster/instance-pools/view/ dans cette URL. Cliquez sur le bouton [...] à côté du champ Token pour saisir le jeton d'authentification généré pour votre compte utilisateur·rice Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Jetons d'accès personnels dans la documentation Azure. Dans le champ DBFS dependencies folder, saisissez le répertoire utilisé pour stocker les dépendances relatives à votre Job sur Databricks Filesystem pendant l'exécution, en insérant un slash (/) à la fin du répertoire. Par exemple, saisissez /jars/ pour stocker les dépendances dans un dossier appelé jars. Ce dossier est créé à la volée s'il n'existe pas. Poll interval when retrieving Job status (in ms) : saisissez, sans guillemets, l'intervalle de temps (en millisecondes) à l'issue duquel vous souhaitez que le Studio interroge Spark au sujet du statut du Job. Par exemple, ce statut peut être Pending (en attente) ou Running (en cours d'exécution). La valeur par défaut est `300000`, c'est-à-dire, 30 secondes. Cet intervalle est recommandé par Databricks afin de récupérer un statut de Job correct. Cluster type : sélectionnez le type de cluster à utiliser, Job clusters ou All-purpose clusters. Les propriétés personnalisées définies dans la table Advanced properties sont automatiquement prises en compte par le transfert des clusters de Jobs lors de l'exécution. Use policy : cochez cette case pour saisir le nom de la politique à utiliser par votre cluster de jobs. Utiliser une politique vous permet de limiter la possibilité de configurer des clusters en vous basant sur un jeu de règles. Pour plus d'informations concernant les politiques de cluster, consultez Manage cluster policies dans la documentation officielle de Databricks. Autoscale : cochez ou décochez cette case pour définir le nombre de workers à utiliser avec votre cluster de jobs. Si vous cochez cette case, l'ajustement automatique sera activé. Puis définissez le nombre minimum de workers dans Min workers et le nombre maximum de workers dans Max workers. Votre cluster de jobs est ajusté automatiquement selon les workers définis et la charge de travail. Selon la documentation Databricks, l'ajustement automatiquement fonctionne mieux sur les versions d'exécution 3.0 de Databricks ou plus récentes. Si vous décochez cette case, l'ajustement automatique est désactivé. Puis définissez le nombre de workers attendus dans un cluster de jobs. Ce nombre n'inclut pas le nœud du pilote Spark. Node type et Driver node type : sélectionnez les types de noeud pour les workers et le noeud du pilote Spark. Ces types déterminent la capacité de vos noeuds et leur tarification par Databricks. Pour plus d'informations concernant ces types de nœuds et les Databricks Units qu'ils utilisent, consultez Supported Instance Types (en anglais) dans la documentation Databricks. Elastic disk : cochez cette case pour activer le cluster de jobs afin d'améliorer automatiquement l'espace disque lorsque ses workers Spark commencent à manquer d'espace disque. Pour plus d'informations sur cette fonctionnalité Elastic disk, recherchez la section relative à Autoscaling local storage dans la documentation Databricks. SSH public key : si un accès SSH a été configuré pour votre cluster, saisissez la clé publique de la paire de clés SSH générée. Cette clé publique est automatiquement ajoutée à chaque nœud de votre cluster de jobs. Si aucun accès SSH n'a été configuré, ignorez ce champ. Pour plus d'informations concernant l'accès SSH à votre cluster, consultez SSH access to clusters dans la documentation Databricks (en anglais). Configure cluster log : cochez cette case afin de définir où stocker vos logs Spark sur le long terme. Ce système de stockage peut être S3 ou DBFS. Do not restart the cluster when submitting : cochez cette case pour empêcher le Studio de redémarrer le cluster lorsque le Studio soumet vos Jobs. Cependant, si vous apportez des modifications à vos Jobs, décochez cette case afin que le Studio redémarre votre cluster pour prendre ces modifications en compte.

Standalone

Use pool (Utiliser un pool) : cochez cette case pour tirer parti d'un pool de Databricks. Le cas échéant, vous devez indiquer un identifiant de pool en lieu et place de l'identifiant de cluster dans la Spark Configuration (Configuration Spark) Vous devez également sélectionner Job cluster dans la liste déroulante Cluster type.
Dans le champ Endpoint, saisissez l'adresse URL de votre espace de travail Azure Databricks. Vous pouvez trouver cette URL dans la Palette Overview de votre espace de travail Databricks sur votre portail Azure. Par exemple, cette URL peut se présenter comme ceci https://adb-$workspaceId.$random.azuredatabricks.net.
Dans le champ Cluster ID, saisissez l'ID du cluster Databricks à utiliser. Cet ID est la valeur de la propriété spark.databricks.clusterUsageTags.clusterId de votre cluster Spark. Vous pouvez trouver cette propriété dans la liste des propriétés dans l'onglet Environment dans la vue Spark UI de votre cluster.

Vous pouvez trouver cet ID dans l'URL de votre cluster Databricks. Il se trouve juste après cluster/ dans cette URL.
Si l'option Use pool (Utiliser un pool) est sélectionnée, saisissez l'identifiant du pool de Databricks dans le champ Pool ID (identifiant de pool). Cet identifiant correspond à la valeur de la clé DatabricksInstancePoolId de votre pool. Elle se trouve sous la mention Tags (Mots-clés) de l'onglet Configuration de votre pool, ainsi que sous la même mention des clusters utilisés par le pool.

Vous pouvez également trouver cet identifiant dans l'URL de votre pool Databricks. Il se trouve juste après cluster/instance-pools/view/ dans cette URL.
Cliquez sur le bouton [...] à côté du champ Token pour saisir le jeton d'authentification généré pour votre compte utilisateur·rice Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Jetons d'accès personnels dans la documentation Azure.
Dans le champ DBFS dependencies folder, saisissez le répertoire utilisé pour stocker les dépendances relatives à votre Job sur Databricks Filesystem pendant l'exécution, en insérant un slash (/) à la fin du répertoire. Par exemple, saisissez /jars/ pour stocker les dépendances dans un dossier appelé jars. Ce dossier est créé à la volée s'il n'existe pas.
Poll interval when retrieving Job status (in ms) : saisissez, sans guillemets, l'intervalle de temps (en millisecondes) à l'issue duquel vous souhaitez que le Studio interroge Spark au sujet du statut du Job. Par exemple, ce statut peut être Pending (en attente) ou Running (en cours d'exécution).

La valeur par défaut est 300000, c'est-à-dire, 30 secondes. Cet intervalle est recommandé par Databricks afin de récupérer un statut de Job correct.
Cluster type : sélectionnez le type de cluster à utiliser, Job clusters ou All-purpose clusters.

Les propriétés personnalisées définies dans la table Advanced properties sont automatiquement prises en compte par le transfert des clusters de Jobs lors de l'exécution.
1. Use policy : cochez cette case pour saisir le nom de la politique à utiliser par votre cluster de jobs. Utiliser une politique vous permet de limiter la possibilité de configurer des clusters en vous basant sur un jeu de règles. Pour plus d'informations concernant les politiques de cluster, consultez Manage cluster policies dans la documentation officielle de Databricks.
2. Autoscale : cochez ou décochez cette case pour définir le nombre de workers à utiliser avec votre cluster de jobs.
  1. Si vous cochez cette case, l'ajustement automatique sera activé. Puis définissez le nombre minimum de workers dans Min workers et le nombre maximum de workers dans Max workers. Votre cluster de jobs est ajusté automatiquement selon les workers définis et la charge de travail.
    Selon la documentation Databricks, l'ajustement automatiquement fonctionne mieux sur les versions d'exécution 3.0 de Databricks ou plus récentes.
  2. Si vous décochez cette case, l'ajustement automatique est désactivé. Puis définissez le nombre de workers attendus dans un cluster de jobs. Ce nombre n'inclut pas le nœud du pilote Spark.
3. Node type et Driver node type : sélectionnez les types de noeud pour les workers et le noeud du pilote Spark. Ces types déterminent la capacité de vos noeuds et leur tarification par Databricks.
  Pour plus d'informations concernant ces types de nœuds et les Databricks Units qu'ils utilisent, consultez Supported Instance Types (en anglais) dans la documentation Databricks.
4. Elastic disk : cochez cette case pour activer le cluster de jobs afin d'améliorer automatiquement l'espace disque lorsque ses workers Spark commencent à manquer d'espace disque.
  Pour plus d'informations sur cette fonctionnalité Elastic disk, recherchez la section relative à Autoscaling local storage dans la documentation Databricks.
5. SSH public key : si un accès SSH a été configuré pour votre cluster, saisissez la clé publique de la paire de clés SSH générée. Cette clé publique est automatiquement ajoutée à chaque nœud de votre cluster de jobs. Si aucun accès SSH n'a été configuré, ignorez ce champ.
  Pour plus d'informations concernant l'accès SSH à votre cluster, consultez SSH access to clusters dans la documentation Databricks (en anglais).
6. Configure cluster log : cochez cette case afin de définir où stocker vos logs Spark sur le long terme. Ce système de stockage peut être S3 ou DBFS.
Do not restart the cluster when submitting : cochez cette case pour empêcher le Studio de redémarrer le cluster lorsque le Studio soumet vos Jobs. Cependant, si vous apportez des modifications à vos Jobs, décochez cette case afin que le Studio redémarre votre cluster pour prendre ces modifications en compte.

Résultats

Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.

Pour plus d'informations concernant l'opération relative aux checkpoints de Spark, consultez la documentation Spark officielle.