Adding Azure specific properties to access the Azure storage system from Databricks - 7.1

Databricks

author
Talend Documentation Team
EnrichVersion
Cloud
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Distributions Hadoop > Databricks
Création et développement > Création de Jobs > Serverless > Databricks
EnrichPlatform
Studio Talend

Ajoutez des propriétés spécifiques à Azure à la configuration Spark de votre cluster Databricks, pour qu'il puisse accéder à Azure Storage.

Cette procédure est nécessaire uniquement lorsque vous souhaitez que vos Jobs Talend pour Apache Spark utilisent Azure Blob Storage ou Azure Data Lake Storage avec Databricks.

Avant de commencer

  • Assurez-vous que votre cluster Spark dans Databricks a bien été créé, qu'il est en cours d'exécution et que sa version est 3.5 LTS. Pour plus d'informations, consultez Créer un espace de travail Azure Databricks dans la documentation Azure.
  • Vous devez avoir un compte Azure.
  • Le service Azure Blob Storage ou Azure Data Lake Storage à utiliser doit avoir été créé et vous devez avoir les autorisations adéquates pour y accéder. Pour plus d'informations concernant Azure Storage, consultez Didacticiels pas à pas dans la documentation Azure.

Procédure

  1. Dans l'onglet Configuration de la page de votre cluster Databricks, faites défiler jusqu'à l'onglet Spark au bas de la page.
  2. Cliquez sur Edit afin de rendre modifiables les champs de cette page.
  3. Dans l'onglet Spark, saisissez les propriétés Spark concernant les autorisations à utiliser pour accéder à votre système Azure Storage.
    Option Description
    Azure Blob Storage Lorsque vous devez utiliser Azure Blob Storage avec Azure Databricks, ajoutez la propriété Spark :
    spark.hadoop.fs.azure.account.key.<storage_account>.blob.core.windows.net <key>
    Azure Data Lake Storage Lorsque vous devez utiliser Azure Data Lake Storage avec Databricks, ajoutez les propriétés Spark suivantes, une par ligne :
    spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
    spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
    spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
    spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token
    Pour plus d'informations concernant comment trouver votre ID d'application et votre clé d'authentification, consultez Obtenir un ID d’application et une clé d’authentification dans la documentation Azure. Dans la même documentation, vous pouvez également trouver des détails concernant votre ID de tenant à l'adresse Obtenir l’ID de locataire.
  4. Si vous devez exécuter des Jobs Spark Streaming avec Databricks, dans le même onglet Spark, ajoutez la propriété suivante pour définir un sérialiseur Spark par défaut. Si vous ne souhaitez pas exécuter de Jobs Spark Streaming, ignorez cette étape.
    spark.serializer org.apache.spark.serializer.KryoSerializer
  5. Redémarrez votre cluster Spark.
  6. Dans l'onglet Spark UI de la page de votre cluster Databricks, cliquez sur Environment pour affichez la liste des propriétés et vérifiez que chaque propriété ajoutée dans les étapes précédentes est présente dans la liste.