Ajouter des propriétés spécifiques à Azure pour accéder au système de stockage depuis Databricks - 7.3

Databricks

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Distributions Hadoop > Databricks
Création et développement > Création de Jobs > Serverless > Databricks
Last publication date
2024-02-22

Ajoutez des propriétés spécifiques à Azure à la configuration Spark de votre cluster Databricks, pour qu'il puisse accéder à Azure Storage.

Cette procédure est nécessaire uniquement lorsque vous souhaitez que vos Jobs Talend pour Apache Spark utilisent Azure Blob Storage ou Azure Data Lake Storage avec Databricks.

Avant de commencer

  • Assurez-vous que votre cluster Spark dans Databricks a bien été créé, qu'il est en cours d'exécution et que sa version est supportée par le Studio. Si vous utilisez Azure Data Lake Storage Gen 2, seule Databricks 5.4 est supportée.

    Pour plus d'informations, consultez Créer un espace de travail Azure Databricks dans la documentation Azure.

  • Vous devez avoir un compte Azure.
  • Le service Azure Blob Storage ou Azure Data Lake Storage à utiliser doit avoir été créé et vous devez avoir les autorisations adéquates pour y accéder. Pour plus d'informations concernant Azure Storage, consultez Didacticiels pas à pas dans la documentation Azure.

Procédure

  1. Dans l'onglet Configuration de la page de votre cluster Databricks, faites défiler jusqu'à l'onglet Spark au bas de la page.

    Exemple

  2. Cliquez sur Edit afin de rendre modifiables les champs de cette page.
  3. Dans l'onglet Spark, saisissez les propriétés Spark concernant les autorisations à utiliser pour accéder à votre système Azure Storage.
    Option Description
    Azure Blob Storage

    Lorsque vous devez utiliser Azure Blob Storage avec Azure Databricks, ajoutez la propriété Spark :

    • Le paramètre fournissant la clé de compte :

      spark.hadoop.fs.azure.account.key.<storage_account>.blob.core.windows.net <key>

      Assurez-vous que le compte à utiliser contient les droits d'accès en lecture écriture appropriés.

    • Si vous devez écrire des données à la suite dans un fichier existant, ajoutez ce paramètre :

      spark.hadoop.fs.azure.enable.append.support true
    Azure Data Lake Storage (Gen 1) Lorsque vous devez utiliser Azure Data Lake Storage Gen1 avec Databricks, ajoutez les propriétés Spark suivantes, une par ligne :
    spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
    spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
    spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
    spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token
    Azure Data Lake Storage (Gen 2)

    Lorsque vous devez utiliser Azure Data Lake Storage Gen2 avec Databricks, ajoutez les propriétés Spark suivantes, une par ligne :

    • Le paramètre fournissant la clé de compte :

      spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>

      Cette clé est associée au compte de stockage à utiliser. Cette clé se trouve dans le panneau Access keys de ce compte de stockage. Deux clés sont disponibles pour chaque compte. Par défaut, n'importe laquelle peut être utilisée pour accéder au compte.

      Assurez-vous que le compte à utiliser contient les droits d'accès en lecture écriture appropriés.

    • Si le système de fichiers ADLS à utiliser n'existe pas encore, ajoutez le paramètre suivant :

      spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true
    Pour plus d'informations concernant comment trouver votre ID d'application et votre clé d'authentification, consultez Obtenir un ID d’application et une clé d’authentification dans la documentation Azure. Dans la même documentation, vous pouvez également trouver des détails concernant votre ID de tenant à l'adresse Obtenir l’ID de tenant.
  4. Si vous devez exécuter des Jobs Spark Streaming avec Databricks, dans le même onglet Spark , ajoutez la propriété suivante pour définir un sérialiseur Spark par défaut. Si vous ne souhaitez pas exécuter de Jobs Spark Streaming, ignorez cette étape.
    spark.serializer org.apache.spark.serializer.KryoSerializer
  5. Redémarrez votre cluster Spark.
  6. Dans l'onglet Spark UI de la page de votre cluster Databricks, cliquez sur Environment pour afficher la liste des propriétés et vérifiez que chaque propriété ajoutée dans les étapes précédentes est présente dans la liste.