Configurer la connexion au service Azure Data Lake Storage à utiliser dans Spark - 7.3

Databricks

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Distributions Hadoop > Databricks
Création et développement > Création de Jobs > Serverless > Databricks
Last publication date
2024-02-22

Procédure

  1. Double-cliquez sur le composant tAzureFSConfiguration pour ouvrir sa vue Component.
    Spark utilise ce composant pour se connecter au système Azure Data Lake Storage dans lequel votre Job écrit les données métier.
  2. Dans la liste déroulante Azure FileSystem, sélectionnez Azure Datalake Storage pour utiliser le stockage Data Lake comme système cible à utiliser.
  3. Dans le champ Datalake storage account, saisissez le nom du compte Data Lake Storage auquel accéder.
    Assurez-vous que l'administrateur du système a attribué à votre compte les autorisations appropriées pour accéder à ce compte Data Lake Storage.
  4. Dans les champs Client ID et Client key, saisissez respectivement l'ID et la clé d'authentification générés après enregistrement de l'application que le Job que vous développez utilise pour accéder à Azure Data Lake Storage.

    Assurez-vous que l'application à utiliser a les droits d'accès à Azure Data Lake. Vous pouvez vérifier dans la vue Required permissions de cette application, dans Azure. Pour plus d'informations, consultez la documentation Azure Affecter l’application Azure AD au dossier ou fichier de compte Azure Data Lake Storage.

    Cette application doit être celle à laquelle vous avez assigné des autorisations d'accès à Azure Data Lake Storage dans l'étape précédente.

  5. Dans le champ Token endpoint, copiez-collez l'endpoint du jeton OAuth 2.0 que vous pouvez obtenir à partir de la liste Endpoints dans la page App registrations de votre portail Azure.