Définir les détails de connexion Spark Universal dans la vue Spark Configuration (Configuration de Spark) - Cloud - 8.0

Guide d'utilisation de Talend Data Fabric Studio

Version
Cloud
8.0
Language
Français (France)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Studio Talend
Content
Création et développement

Configurez la connexion Spark Universal dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Big Data de Talend, et ne sont pas applicables aux utilisateurs et utilisatrices de Talend Open Studio for Big Data.

Procédure

  1. Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
  2. Configurez les paramètres de connexion.
    • Si vous avez configuré les paramètres de la connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez facilement la réutiliser. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.
      Conseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
    • Si vous n'avez pas configuré les paramètres de connexion, sélectionnez Built-in dans la liste déroulante Property type, renseignez les champs correspondants, comme expliqué dans le tableau ci-dessous, selon le mode/l'environnement du Runtime avec lequel vous souhaitez vous connecter :
      local Le Studio Talend se connecte à votre système de fichiers local sur votre machine pour exécuter le Job. Vous n'avez pas besoin de spécifier de paramètre de connexion car le Studio construit l'environnement Spark en lui-même lors de l'exécution.
      Si vous devez exécuter depuis Windows, il est recommandé de spécifier où le programme winutils.exe à utiliser est stocké :
      • Si vous savez où se trouve le fichier winutils.exe et que vous souhaitez l'utiliser, cochez la case Define the Hadoop home directory et saisissez le répertoire dans lequel est stocké winutils.exe.

      • Sinon, laissez cette case décochée. Le Studio en génère un par lui-même et l'utilise pour le Job.

      Standalone
      Remarque : Ce mode est disponible uniquement avec les versions Spark 3.2.x.
      Le Studio Talend se connecte à un cluster configuré pour Spark afin d'exécuter le Job depuis ce cluster. Si vous utilisez le mode Standalone vous devez spécifier les paramètres suivants :
      • Standalone master
      • Configure executors
      Yarn Cluster
      Remarque : Ce mode est disponible uniquement avec les versions Spark 2.4.x, 3.0.x et 3.1.x.
      Le Studio Talend se connecte à un cluster YARN afin d'exécuter le Job depuis ce cluster. Si vous utilisez le mode Yarn cluster, vous devez spécifier le chemin d'accès au fichier JAR de configuration Hadoop fournissant les paramètres de connexion au cluster YARN à utiliser :

      Avec ce mode, aucun composant de configuration n'est requis, car le fichier JAR contient déjà toutes les informations nécessaires pour établir une connexion à tous les fichiers *-site.xml du cluster.

      Kubernetes
      Remarque : Ce mode est disponible uniquement avec les versions Spark 3.1.x.
      Le Studio Talend se connecte à un cluster Kubernetes pour exécuter le Job depuis ce cluster. Si vous utilisez le mode Kubernetes, vous devez configurer les paramètres suivants :
      • Kubernetes master : saisissez l'adresse du serveur d'API en respectant le format suivant : k8s://https://<k8s-apiserver-host>:<k8s-apiserver-port>. Vous pouvez récupérer l'adresse à l'aide de la commande kubectl config view --minify dans votre invite de commande.
      • Number of executor instances : saisissez le nombre d'exécuteurs à utiliser pour l'exécution du Job.
      • Use registry secret : saisissez le mot de passe pour accéder à l'image Docker, si besoin.
      • Docker image : saisissez le nom de l'image Docker à utiliser pour l'exécution.
      • Namespace : saisissez l'espace de noms du cluster Docker.
      • Service account : saisissez le nom du compte de service à utiliser. Le compte de service doit avoir les droits suffisants sur le cluster Kubernetes.
      • Cloud storage : sélectionnez dans la liste déroulante le fournisseur de Cloud à utiliser et saisissez les informations et identifiants dans les champs correspondants. Pour plus d'informations, consultez Définir les paramètres de connexion à Kubernetes.
      Databricks
      Remarque : Ce mode est disponible uniquement avec les versions Spark 3.1.x et 3.2.x.
      Le Studio Talend se connecte à un cluster Databricks afin d'exécuter le Job depuis ce cluster. Si vous utilisez le mode Databricks, vous devez configurer les paramètres suivants :
      • Run mode : sélectionnez le mode à utiliser pour exécuter votre Job sur un cluster Databricks lorsque vous exécutez votre Job dans le Studio Talend. Avec Create and run now (Créer et exécuter maintenant), un Job est créé et exécuté immédiatement sur Databricks et avec Runs submit (Soumettre les exécutions), une exécution simple est soumise sans créer de Job dans Databricks.
      • Cloud provider (Fournisseur Cloud) : sélectionnez le fournisseur de Cloud à utiliser, entre AWS et Azure.
      • Endpoint : saisissez l'URL de votre espace de travail.
      • Cluster ID (ID du cluster) : saisissez l'ID de votre cluster Databricks à utiliser. Cet ID est la valeur de la propriété spark.databricks.clusterUsageTags.clusterId de votre cluster Spark. Vous pouvez trouver cette propriété dans la liste des propriétés dans l'onglet Environment dans la vue Spark UI de votre cluster.
      • Token (Jeton) : saisissez le jeton d'authentification généré pour votre compte Databricks.
      • DBFS dependencies folder : saisissez le répertoire utilisé pour stocker les dépendances relatives à votre Job sur Databricks Filesystem pendant l'exécution, en insérant un slash (/) à la fin du répertoire. Par exemple, saisissez /jars/ pour stocker les dépendances dans un dossier appelé jars. Ce dossier est créé à la volée s'il n'existe pas.
      Le Studio Talend est compatible avec :
      • Les versions 8.x et 9.x de Databricks avec Spark 3.1.x
      • La version 10.x de Databricks avec Spark 3.2.x
      Dataproc
      Remarque : Ce mode est disponible uniquement avec les versions Spark 3.1.x.
      Le Studio Talend se connecte à un cluster Dataproc afin d'exécuter le Job depuis ce cluster. Si vous utilisez le mode Dataproc, vous devez configurer les paramètres suivants :
      • Project ID (ID du projet) : Saisissez l'ID de votre projet Google Cloud Platform.
      • Cluster ID (ID du cluster) : Saisissez l'ID de votre cluster Dataproc à utiliser.
      • Region (Région) : Saisissez le nom de la région Google Cloud à utiliser.
      • Google Storage staging bucket (Bucket de préparation Google Storage) : Comme un Job Talend nécessite ses fichiers .jar dépendants pour être exécuté, spécifiez le répertoire Google Storage dans lequel ces fichiers .jar sont transférés afin que votre Job accède à ces fichiers lors de l'exécution.
      • Provide Google Credentials (Fournir Google Credentials) : laissez cette case décochée, lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur·rice pour accéder à Google Cloud Platform. Dans cette situation, cette machine est souvent votre machine locale.
      • Credential type (Type d'identifiants) : sélectionnez le mode à utiliser pour vous authentifier à votre projet :
        • Service account : authentification à l'aide d'un compte Google associé à votre projet Google Cloud Platform. Lorsque vous sélectionnez ce mode, le paramètre à définir est Path to Google Credentials file.
        • OAuth2 Access Token : authentification de l'accès à l'aide des identifiants OAuth. Lorsque vous sélectionnez ce mode, le paramètre à définir est OAuth2 Access Token (Jeton d'accès OAuth).
      • Path to Google Credentials file (Chemin d'accès au fichier Google Credentials) : saisissez le chemin d'accès au fichier associé au compte utilisateur·rice à utiliser. Ce fichier doit être stocké sur la machine sur laquelle votre Job Talend est lancé et exécuté.
      • OAuth2 Access Token (Jeton d'accès OAuth) : saisissez un jeton d'accès.
        Important : Le jeton n'est valide qu'une heure. Le Studio Talend n'effectue pas d'opération d'actualisation du jeton, vous devez donc en générer un nouveau une fois la limite d'une heure dépassée.

        Vous pouvez générer un jeton d'accès OAuth dans Google Developers OAuth Playground en allant dans BigQuery API v2 et en choisissant tous les droits nécessaires (bigquery, devstorage.full_control et cloud-platform).

      Important : La case Use transient cluster (Utiliser un cluster transitoire) s'affiche dans l'interface mais n'est pas utilisable. Ce problème est connu et sera fixé.

      Le Studio Talend est compatible avec la version de Dataproc 2.0.x.

      Cloudera Data Engineering
      Remarque : Ce mode est disponible uniquement avec les versions Spark 3.1.x.
      Le Studio Talend se connecte au service Cloudera Data Engineering (CDE) pour exécuter le Job depuis ce cluster. Si vous utilisez le mode Cloudera Data Engineering, vous devez configurer les paramètres suivants :
      • CDE API endpoint : saisissez l'endpoint de l'API CDE. Vous pouvez trouver l'URL depuis le lien JOBS API URL.
      • CDE API token : saisissez le jeton CDE à utiliser pour l'authentification à l'API. L'URL doit respecter le format suivant : [BASE_URL]/gateway/authtkn. Pour plus d'informations, consultez CDE API access token dans la documentation Cloudera (en anglais).

        Cette propriété est disponible uniquement lorsque la case Auto generate token est décochée.

      • Auto generate token : cochez cette case pour créer un jeton avant de soumettre le Job.
        • CDE token endpoint : saisissez le jeton CDE à utiliser.
        • Workload user : saisissez le nom d'utilisateur·trice de workload CDP à utiliser pour générer un jeton. Pour plus d'informations, consultez la CDP workload user dans la documentation Cloudera (en anglais).
        • Workload password : saisissez le mot de passe associé à l'utilisateur·trice de workload.
      • Enable client debugging : cochez cette case pour activer le log de débogage pour le client d'API CDE.
      • Advanced parameters : cochez cette case pour saisir les paramètres d'API CDE suivants :
        • Number of executors : saisissez le nombre d'exécuteurs.
        • Driver cores : saisissez le nombre de cœurs de pilotes.
        • Driver memory : saisissez la taille de la mémoire à allouer à chaque pilote.
        • Executor cores : saisissez le nombre de cœurs d'exécuteurs.
        • Executor memory : saisissez la taille de la mémoire à allouer à chaque exécuteur.
  3. Saisissez les informations simples de configuration :
    Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.
    Remarque :
    • Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
    • Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
    Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :
    • Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
    • Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
    Important : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
    Remarque : Les Jobs créés en 7.3 ou dans une version plus récente utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
    Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates.
    Remarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.
  4. Avec les modes Local et Yarn cluster, dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke les fichiers temporaires dans le système local, par exemple les fichiers JAR à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, ce répertoire est C:/tmp.
  5. Facultatif : Cochez la case Set Tuning properties pour optimiser l'allocation des ressources à utiliser pour exécuter le Job. Ces propriétés ne sont pas obligatoires pour que le Job s'exécute correctement, mais elles sont utiles lorsque Spark est congestionné par des problèmes de ressources dans le cluster, comme le processeur, la bande passante ou la mémoire. Pour plus d'informations, consultez Adapter Spark pour les Jobs Apache Spark Batch ou Adapter Spark pour les Jobs Apache Spark Streaming, selon votre type de Jobs.
  6. Dans la table Advanced properties, ajoutez toute propriété Spark à utiliser pour écraser la propriété équivalente utilisée par le Studio.

Résultats

Les informations de connexion sont renseignées. Vous êtes prêt·e à ordonnancer les exécutions de votre Job ou à l'exécuter immédiatement.