Définition des paramètres de connexion à Databricks sur AWS pour les Jobs Spark - 7.2

Databricks

EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Création de Jobs > Distributions Hadoop > Databricks
Création et développement > Création de Jobs > Serverless > Databricks

Terminez la configuration de la connexion à Databricks dans l'onglet Spark configuration (Configuration Spark) de la vue Run (Exécuter) de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Avant de commencer

    1. Lors de l'exécution d'un Job Spark Streaming, seul un Job est autorisé à s'exécuter sur le même cluster Databricks à la fois.
    2. Lors de l'exécution d'un Job Spark Batch, si vous avez coché la case Do not restart the cluster when submitting, et uniquement dans ce cas, vous pouvez envoyer plusieurs Jobs en parallèle afin qu'ils s'exécutent sur le même cluster Databricks. Dans le cas contraire, étant donné que chaque Job redémarre automatiquement le cluster, les Jobs lancés en parallèle s'interrompent les uns les autres et provoquent un échec d'exécution.
  • Assurez-vous que le compte AWS à utiliser a les droits de lecture/d'écriture appropriés à ce bucket S3. Contactez l'administrateur ou l'administratrice de votre système AWS pour vous en assurer.

Procédure

Saisissez les informations simples de connexion à Databricks sur AWS.

Standalone

  • Dans le champ Endpoint, saisissez l'URL de votre espace de travail Databricks sur AWS. Par exemple, cette URL se présente comme ceci : https://<votre_endpoint>.cloud.databricks.com.

  • Dans le champ Cluster ID, saisissez l'ID du cluster Databricks à utiliser. Cet ID est la valeur de la propriété spark.databricks.clusterUsageTags.clusterId de votre cluster Spark. Vous pouvez trouver cette propriété dans la liste des propriétés dans l'onglet Environment dans la vue Spark UI de votre cluster.

    Vous pouvez trouver cet ID dans l'URL de votre cluster Databricks. L'ID est présent tout de suite après cluster/ dans cette URL.

    Ce champ n'est pas utilisé et donc indisponible si vous utilisez des clusters transitoires

  • Cliquez sur le bouton [...] à côté du champ Token pour saisir le token d'authentification généré pour votre compte utilisateur Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Token management (en anglais) dans la documentation Databricks.

  • Dans le champ DBFS dependencies folder, saisissez le répertoire utilisé pour stocker les dépendances relatives à votre Job sur Databricks Filesystem pendant l'exécution, en insérant un slash (/) à la fin du répertoire. Par exemple, saisissez /jars/ pour stocker les dépendances dans un dossier appelé jars. Ce dossier est créé à la volée s'il n'existe pas.

    Ce répertoire stocke les dépendances de vos Job uniquement dans DBFS. Dans votre Job, utilisez le tS3Configuration, tDynamoDBConfiguration, ou, dans un Job Spark Streaming, les composants Kinesis, respectivement, pour lire ou écrire les données métier dans les systèmes associés.

  • Poll interval when retrieving Job status (in ms) : saisissez, sans guillemets, l'intervalle de temps (en millisecondes) à l'issue duquel vous souhaitez que le Studio interroge Spark au sujet du statut du Job. Par exemple, ce statut peut être Pending (en attente) ou Running (en cours d'exécution).

    La valeur par défaut est 300000, c'est-à-dire, 30 secondes. Cet intervalle est recommandé par Databricks afin de récupérer un statut de Job correct.

  • Use transient cluster : vous pouvez cocher cette case pour tirer parti des clusters transitoires Databricks.

    Les propriétés personnalisées définies dans la table Advanced properties sont automatiquement prises en compte par le transfert des clusters transitoires lors de l'exécution.

    1. Autoscale : cocher ou décocher cette case pour définir le nombre de workers à utiliser avec votre cluster transitoire.
      1. Si vous cochez cette case, l'ajustement automatique sera activé. Puis définissez le nombre minimum de workers dans Min workers et le nombre maximum de workers dans Max workers. Votre cluster transitoire est ajusté automatiquement selon les workers définis et la charge de travail.

        Selon la documentation Databricks, l'ajustement automatiquement fonctionne mieux sur les versions d'exécution 3.0 de Databricks ou plus récentes.

      2. Si vous décochez cette case, l'ajustement automatique est désactivé. Puis définissez le nombre de workers attendus dans un cluster transitoire. Ce nombre n'inclut pas le noeud du pilote Spark.
    2. Node type et Driver node type : sélectionnez les types de noeud pour les workers et le noeud du pilote Spark. Ces types déterminent la capacité de vos noeuds et leur tarification par Databricks.

      Pour plus d'informations sur ces types de noeuds et les Databricks Units qu'ils utilisent, consultez Supported Instance Types (en anglais) dans la documentation Databricks.

    3. Elastic disk : cochez cette case pour activer le cluster transitoire afin d'améliorer automatiquement l'espace disque lorsque ses workers Spark commencent à manquer d'espace disque.

      Pour plus d'informations sur cette fonctionnalité Elastic disk, recherchez la section relative à Autoscaling local storage dans la documentation Databricks.

    4. SSH public key : si un accès SSH a été configuré pour votre cluster, saisissez la clé publique de la paire de clés SSH générée. Cette clé publique est automatiquement ajoutée à chaque nœud de votre cluster transitoire. Si aucun accès SSH n'a été configuré, ignorez ce champ.

      Pour plus d'informations concernant l'accès SSH à votre cluster, consultez SSH access to clusters dans la documentation Databricks.

    5. Configure cluster log : cochez cette case afin de définir où stocker vos logs Spark sur le long terme. Ce système de stockage peut être S3 ou DBFS.
  • Do not restart the cluster when submitting : cochez cette case pour empêcher le Studio de redémarrer le cluster lorsque le Studio soumet vos Jobs. Cependant, si vous apportez des modifications à vos Jobs, décochez cette case afin que le Studio redémarre votre cluster pour prendre ces modifications en compte.

Résultats

Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.

Pour plus d'informations concernant les points de contrôle Spark, consultez http://spark.apache.org/docs/latest/streaming-programming-guide.html#checkpointing (en anglais).