Créer des profils d'exécution Databricks - Cloud

Guide utilisateur de Talend Cloud Management Console

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Administration et monitoring > Gestion des projets
Administration et monitoring > Gestion des utilisateurs
Déploiement > Exécution de Pipelines
Déploiement > Exécution de Tâches
Déploiement > Ordonnancement > Ordonnancement de Tâches
EnrichPlatform
Talend Management Console

Avant de commencer

  • Vous devez avoir les droits Operator ou Administrator dans Talend Cloud Pipeline Designer.
  • Vous devez configurer le Remote Engine for Pipelines ou vous assurer que votre souscription vous permette d'utiliser le moteur Cloud pour les Pipelines. Pour plus d'instructions concernant la configuration du moteur distant, consultez le Guide de démarrage rapide de Talend Remote Engine for Pipelines.

Procédure

  1. Ouvrez l’onglet ENGINES.
  2. Cliquez sur RUN PROFILES.
  3. Cliquez sur ADD PROFILE.
  4. Sélectionnez le type de profil d’exécution Databricks.
  5. Sélectionnez le moteur auquel appliquer le profil d'exécution.
  6. Saisissez le nom du profil.
  7. Facultatif : Saisissez la description du profil d’exécution.
  8. Sélectionnez votre fournisseur de Cloud dans la liste déroulante.
    • AWS
    • Azure
  9. Saisissez l'endpoint de votre API Databricks.
    La syntaxe attendue de l'endpoint est https://<DatabricksAccount>.cloud.databricks.com.
  10. Facultatif : Saisissez le jeton de votre API Databricks.
    Votre jeton se trouve dans le menun User Settings > Access Tokens de votre compte Databricks.
  11. Saisissez l'adresse de votre répertoire de travail DBFS.
    Le chemin d'accès doit commencer par dbfs:/, par exemple dbfs:/tpd-staging/. Ce dossier est utilisé pour stocker toutes les dépendances des connecteurs utilisés dans Talend Cloud Pipeline Designer.

    Exemple

  12. Dans la section BASIC CONFIGURATION, saisissez l'intervalle entre chaque micro-batch, en millisecondes.
    La valeur par défaut est 5000:
  13. Configurez les attributs suivants :
    1. Saisissez la version Spark du cluster que vous créez.
      Actuellement, seules les versions de prise en charge à long terme (LTS) sont supportées.
    2. Saisissez l'ID du type de nœud.
      Ce champ détermine la taille de la machine pour les nœuds Spark. Pour plus d'informations concernant les types de nœuds sur Amazon, consultez la documentation Amazon.
    3. Définissez dans quel dossier du DBFS collecter les logs.
    4. Spécifiez le nombre de machines à utiliser.

    Exemple

  14. Dans la zone ADVANCED CONFIGURATION, cliquez sur ADD PARAMETER pour créer un paramètre.

    Exemple

    Pour configurer la mémoire à utiliser par processus d’exécuteur, saisissez spark.executor.memory dans la clé du paramètre et 16g dans les champs de valeur.
  15. Cliquez sur SAVE.

Résultats

Le profil d’exécution créé s’affiche dans la page ENGINES > RUN PROFILES de Talend Cloud Management Console. Dans Talend Cloud Pipeline Designer, le même profil d’exécution s’affiche dans la liste déroulante du pipeline.

Remarque : La première exécution d'un pipeline sur le cluster requiert plus de temps que les suivantes car les dépendances sont déployées sur Databricks File System (DBFS).