Définir les paramètres de connexion à Databricks avec Spark Universal - Cloud - 8.0

Guide d'utilisation de Talend Data Fabric Studio

Version
Cloud
8.0
Language
Français (France)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Studio Talend
Content
Création et développement

About this task

Le Studio Talend se connecte à un cluster Databricks afin d'exécuter le Job depuis ce cluster.

Complétez la configuration de la connexion à Spark Universal avec le mode Databricks, sur Spark 3.1.x ou 3.2.x dans l'onglet Spark configuration de la vue Run de votre Job Spark. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Big Data de Talend, et ne sont pas applicables aux utilisateurs et utilisatrices de Talend Open Studio for Big Data.

Procedure

  1. Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
  2. Sélectionnez Built-in dans la liste déroulante Property type.
    Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.
    Tip: Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
  3. Sélectionnez Universal dans la liste déroulante Distribution, Spark 3.1.x ou Spark 3.2.xdans la liste déroulante Version et Local dans la liste déroulante Runtime mode/environment.
  4. Saisissez les informations simples de configuration :
    Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.
    Note:
    • Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
    • Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
    Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :
    • Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
    • Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
    Important: Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
    Note: Les Jobs créés en 7.3 ou dans une version plus récente utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
    Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates.
    Note: Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.
  5. Renseignez les paramètres Databricks configuration :
    Cloud provider Sélectionnez le fournisseur de Cloud à utiliser : AWS, Azure ou GCP.
    Run mode Sélectionnez le mode à utiliser pour exécuter votre Job sur un cluster Databricks lorsque vous exécutez votre Job dans le Studio Talend. Avec Create and run now (Créer et exécuter maintenant), un Job est créé et exécuté immédiatement sur Databricks et avec Runs submit (Soumettre les exécutions), une exécution simple est soumise sans créer de Job dans Databricks.
    Use pool Cochez cette case pour tirer parti d'un pool de Databricks. Le cas échéant, vous devez indiquer un identifiant de pool (Pool ID) en lieu et place de l'identifiant de cluster Cluster ID. Vous devez également cocher la case Use transient cluster.
    Endpoint Saisissez l'URL de votre espace de travail.
    Cluster ID Saisissez l'ID de votre cluster Databricks à utiliser. Cet ID est la valeur de la propriété spark.databricks.clusterUsageTags.clusterId de votre cluster Spark. Vous pouvez trouver cette propriété dans la liste des propriétés dans l'onglet Environment dans la vue Spark UI de votre cluster.
    Token Saisissez le jeton d'authentification généré pour votre compte Databricks.
    DBFS dependencies folder Saisissez le répertoire utilisé pour stocker les dépendances relatives à votre Job sur Databricks Filesystem pendant l'exécution, en insérant un slash (/) à la fin du répertoire. Par exemple, saisissez /jars/ pour stocker les dépendances dans un dossier appelé jars. Ce dossier est créé à la volée s'il n'existe pas.
    Project ID Saisissez l'ID de votre projet Google Platform où se situe le projet Databricks.

    Ce champ est disponible uniquement lorsque vous sélectionnez GCP dans la liste déroulante Cloud provider.

    Bucket Saisissez le nom du bucket à utiliser pour Databricks depuis Google Platform.

    Ce champ est disponible uniquement lorsque vous sélectionnez GCP dans la liste déroulante Cloud provider.

    Workspace ID Saisissez l'ID de votre espace de travail Google Platform en respectant le format suivant : databricks-workspaceid.

    Ce champ est disponible uniquement lorsque vous sélectionnez GCP dans la liste déroulante Cloud provider.

    Google credentials Saisissez le chemin du répertoire dans lequel le fichier JSON contenant votre clé de compte de service est stocké, sur la machine du JobServer.

    Ce champ est disponible uniquement lorsque vous sélectionnez GCP dans la liste déroulante Cloud provider.

    Poll interval when retrieving Job status (in ms) Saisissez l'intervalle de temps (en millisecondes) à la fin duquel vous souhaitez que le Studio demande à Spark le statut de votre Job.
    Use transient cluster Cochez cette case pour tirer parti des clusters transitoires Databricks.
    Do not restart the cluster when submitting Cochez cette case pour empêcher le Studio de redémarrer le cluster lorsque le Studio soumet vos Jobs. Cependant, si vous apportez des modifications à vos Jobs, décochez cette case afin que le Studio redémarre votre cluster pour prendre ces modifications en compte.
  6. Dans le champ Spark "scratch" directory, saisissez le nom du répertoire dans lequel le Studio stocke les fichiers temporaires dans le système de fichiers local, par exemple les fichiers JAR à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, ce répertoire est C:/tmp.
  7. S'il vous faut un Job résistant aux échecs, cochez la case Activate checkpointing pour activer l'opération de points de contrôle Spark. Dans le champ Checkpoint directory, saisissez le chemin du répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données contextuelles des calculs, comme les métadonnées et les RDD générés par ce calcul.
  8. Dans la table Advanced properties, ajoutez toute propriété Spark à utiliser pour écraser la propriété équivalente utilisée par le Studio.

Results

Les informations de connexion au cluster Databricks sont renseignées. Vous êtes prêt·e à ordonnancer les exécutions de votre Job Spark ou à l'exécuter immédiatement depuis ce cluster.