Defining the Databricks-on-AWS connection parameters for Spark Jobs - 7.1

Databricks

author
Talend Documentation Team
EnrichVersion
Cloud
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Distributions Hadoop > Databricks
Création et développement > Création de Jobs > Serverless > Databricks
EnrichPlatform
Studio Talend

Terminez la configuration de la connexion à Databricks dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Avant de commencer

  • Assurez-vous d'un seul Job est envoyé pour s'exécuter sur le même cluster Databricks à la fois et n'envoyez pas d'autre Job avant la fin de l'exécution du premier. Chaque exécution redémarrant le cluster, les Jobs qui sont lancés en parallèle s'interrompent mutuellement et entraînent l'échec de leur exécution.

  • Assurez-vous que le compte AWS à utiliser a les droits de lecture/d'écriture appropriés à ce bucket S3. Contactez l'administrateur de votre système AWS pour vous en assurer.

Procédure

Saisissez les informations simples de connexion à Databricks sur AWS.

Standalone

  • Dans le champ Endpoint, saisissez l'URL de votre espace de travail Databricks sur AWS. Par exemple, cette URL se présente comme ceci : https://<votre_endpoint>.cloud.databricks.com.

  • Dans le champ Cluster ID, saisissez l'ID du cluster Databricks à utiliser. Cet ID est la valeur de la propriété spark.databricks.clusterUsageTags.clusterId de votre cluster Spark. Vous pouvez trouver cette propriété dans la liste des propriétés dans l'onglet Environment dans la vue Spark UI de votre cluster.

    Vous pouvez trouver cet ID dans l'URL de votre cluster Databricks. L'ID est présent tout de suite après cluster/ dans cette URL.

  • Cliquez sur le bouton [...] à côté du champ Token pour saisir le token d'authentification généré pour votre compte utilisateur Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Token management (en anglais) dans la documentation Databricks.

  • Dans le champ DBFS dependencies folder, saisissez le répertoire utilisé pour stocker les dépendances relatives à votre Job sur Databricks Filesystem pendant l'exécution, en insérant un slash (/) à la fin du répertoire. Par exemple, saisissez /jars/ pour stocker les dépendances dans un dossier appelé jars. Ce dossier est créé à la volée s'il n'existe pas.

    Ce répertoire stocke les dépendances de vos Job uniquement dans DBFS. Dans votre Job, utilisez le tS3Configuration, tDynamoDBConfiguration, ou, dans un Job Spark Streaming, les composants Kinesis, respectivement, pour lire ou écrire les données métier dans les systèmes associés.

Résultats

  • Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :
  • Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.

    Pour plus d'informations concernant les points de contrôle Spark, consultez http://spark.apache.org/docs/latest/streaming-programming-guide.html#checkpointing (en anglais).