Configurer la connexion à votre plateforme Big Data - 7.3

Guide de prise en main de Talend Big Data Platform

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Big Data Platform
task
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime

Configurer la connexion à une distribution Hadoop donnée dans le Repository vous permet d'éviter de configurer cette connexion à chaque fois que vous devez utiliser la même plateforme.

La plateforme Big Data à utiliser dans cet exemple est un cluster Databricks V5.4, avec Azure Data Lake Storage Gen2.

Avant de commencer

  • Assurez-vous que votre cluster Spark dans Databricks a bien été créé.

    Pour plus d'informations, consultez Créer un espace de travail Azure Databricks dans la documentation Azure.

  • Vous devez avoir un compte Azure.
  • Le compte de stockage Azure Data Lake Storage Gen2 à utiliser doit avoir été créé et vous devez avoir les droits en lecture écriture sur celui-ci. Pour plus d'informations concernant la création de ce type de compte de stockage, consultez Créer un compte de stockage Azure Data Lake Storage Gen2 dans la documentation Azure.

Pourquoi et quand exécuter cette tâche

Vous devez d'abord configurer votre cluster Databricks côté cluster puis configurer la métadonnée de connexion dans le Studio.

Procédure

  1. Dans l'onglet Configuration de la page de votre cluster Databricks, faites défiler jusqu'à l'onglet Spark au bas de la page.

    Exemple

  2. Cliquez sur Edit afin de rendre modifiables les champs de cette page.
  3. Dans l'onglet Spark, saisissez les propriétés Spark concernant les identifiants à utiliser pour accéder à votre système Azure Storage, un par ligne.
    • Le paramètre fournissant la clé de compte :

      spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>

      Cette clé est associée au compte de stockage à utiliser. Cette clé se trouve dans le panneau Access keys de ce compte de stockage. Deux clés sont disponibles pour chaque compte. Par défaut, n'importe laquelle peut être utilisée pour accéder au compte.

      Assurez-vous que le compte à utiliser contient les droits d'accès en lecture écriture appropriés.

    • Si le système de fichiers ADLS à utiliser n'existe pas encore, ajoutez le paramètre suivant :

      spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true
    • Si vous devez exécuter des Jobs Spark Streaming avec Databricks, dans le même onglet Spark , ajoutez la propriété suivante pour définir un sérialiseur Spark par défaut. Si vous ne souhaitez pas exécuter de Jobs Spark Streaming, ignorez cette étape.
      spark.serializer org.apache.spark.serializer.KryoSerializer
  4. Redémarrez votre cluster Spark.
  5. Dans l'onglet Spark UI de la page de votre cluster Databricks, cliquez sur Environment pour afficher la liste des propriétés et vérifiez que chaque propriété ajoutée dans les étapes précédentes est présente dans la liste.
  6. Dans la vue Repository de votre Studio, développez le nœud Metadata puis cliquez-droit sur Hadoop cluster.
  7. Sélectionnez Create Hadoop cluster dans le menu contextuel pour ouvrir l'assistant Hadoop cluster connection.
  8. Renseignez les informations génériques relatives à cette connexion, comme les champs Name et Description, puis cliquez sur Next pour ouvrir l'assistant Hadoop configuration import wizard vous permettant d'importer une configuration prête à l'emploi, s'il y en a.
  9. Cochez la case Enter manually Hadoop services afin de saisir manuellement les informations de configuration pour la connexion Databricks en cours de création.
  10. Cliquez sur Finish pour fermer l'assistant d'import.
  11. Dans la liste Distribution, sélectionnez Databricks, puis dans la liste Version, sélectionnez 5.4 (includes Apache Spark 2.4.3, Scala 2.11).
  12. Dans le champ Endpoint, saisissez l'adresse URL de votre espace de travail Azure Databricks. Vous pouvez trouver cette URL dans la Palette Overview de votre espace de travail Databricks sur votre portail Azure. Par exemple, cette URL peut se présenter comme ceci https://adb-$workspaceId.$random.azuredatabricks.net.
  13. Dans le champ Cluster ID, saisissez l'ID du cluster Databricks à utiliser. Cet ID est la valeur de la propriété spark.databricks.clusterUsageTags.clusterId de votre cluster Spark. Vous pouvez trouver cette propriété dans la liste des propriétés dans l'onglet Environment dans la vue Spark UI de votre cluster.
    Vous pouvez trouver cet ID dans l'URL de votre cluster Databricks. Il se trouve juste après cluster/ dans cette URL.
  14. Cliquez sur le bouton [...] à côté du champ Token pour saisir le jeton d'authentification généré pour votre compte utilisateur·rice Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Token management (en anglais) dans la documentation Azure.
  15. Dans le champ DBFS dependencies folder, saisissez le répertoire utilisé pour stocker les dépendances relatives à votre Job sur Databricks Filesystem pendant l'exécution, en insérant un slash (/) à la fin du répertoire. Par exemple, saisissez /jars/ pour stocker les dépendances dans un dossier appelé jars. Ce dossier est créé à la volée s'il n'existe pas.
  16. Cliquez sur Finish pour valider vos modifications et fermer l'assistant.

Résultats

La nouvelle connexion, nommée movie_library dans cet exemple, est affichée dans le dossier Hadoop cluster de la vue Repository.