Définir les paramètres de connexion à Cloudera Data Engineering avec Spark Universal - 8.0

Guide d'utilisation de Talend Big Data Platform Studio

Version
8.0
Language
Français (France)
EnrichDitaval
Big Data Platform
Product
Talend Big Data Platform
Module
Studio Talend
Content
Création et développement

About this task

Le Studio Talend se connecte au service Cloudera Data Engineering (CDE) pour exécuter le Job Spark depuis ce cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Big Data de Talend, et ne sont pas applicables aux utilisateurs et utilisatrices de Talend Open Studio for Big Data.

Complétez la configuration de la connexion à Spark Universal avec Kubernetes sur Spark 3.1.x ou Spark 3.2.x dans l'onglet Spark configuration de la vue Run de votre Job Spark. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Procedure

  1. Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
  2. Sélectionnez Built-in dans la liste déroulante Property type.
    Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.
    Tip: Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
  3. Sélectionnez Universal dans la liste déroulante Distribution, Spark 3.1.x ou Spark 3.2.xdans la liste déroulante Version et Cloudera Data Engineering dans la liste déroulante Runtime mode/environment.
  4. Si vous devez exécuter votre Job Spark sur Windows, spécifiez l'emplacement du programme winutils.exe à utiliser :
    • Si vous savez où se trouve le fichier winutils.exe et que vous souhaitez l'utiliser, cochez la case Define the Hadoop home directory et saisissez le répertoire dans lequel est stocké winutils.exe.

    • Sinon, laissez la case Define the Hadoop home directory décochée, le Studio en génère un lui-même et l'utilise automatiquement pour ce Job.

  5. Saisissez les informations simples de Configuration :
    Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.
    Note:
    • Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
    • Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
    Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :
    • Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
    • Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
    Important: Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
    Note: Les Jobs créés en 7.3 ou dans une version plus récente utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
    Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates.
    Note: Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.
  6. Renseignez les paramètres CDE configuration :
    CDE API endpoint Saisissez l'endpoint de l'API CDE. Vous pouvez trouver l'URL depuis le lien JOBS API URL.
    CDE API token Saisissez le jeton CDE à utiliser pour l'authentification à l'API. L'URL doit respecter le format suivant : [BASE_URL]/gateway/authtkn. Pour plus d'informations, consultez CDE API access token dans la documentation Cloudera (en anglais).

    Cette propriété est disponible uniquement lorsque la case Auto generate token est décochée.

    Auto generate token Cochez cette case pour créer un jeton avant de soumettre le Job.
    • CDE token endpoint : saisissez le jeton CDE à utiliser.
    • Workload user : saisissez le nom d'utilisateur·trice de workload CDP à utiliser pour générer un jeton. Pour plus d'informations, consultez la CDP workload user dans la documentation Cloudera (en anglais).
    • Workload password : saisissez le mot de passe associé à l'utilisateur·trice de workload.
    Enable client debugging Cochez cette case pour activer le log de débogage pour le client d'API CDE.
    Override dependencies Cochez cette case pour écraser les dépendances requises pour Spark.
    Job status/logs polling interval (in ms) Saisissez l'intervalle de temps (en millisecondes) à la fin duquel vous souhaitez que le Studio demande à Spark le statut de votre Job.
    Fetch driver logs Cochez cette case pour récupérer les logs du pilote lors de l'exécution. Vous pouvez choisir de récupérer les informations suivantes en cochant la case :
    • Standard output
    • Error output
    Advanced parameters Cochez cette case pour saisir les paramètres avancés d'API CDE suivants :
    • Number of executors : saisissez le nombre d'exécuteurs.
    • Driver cores : saisissez le nombre de cœurs de pilotes.
    • Driver memory : saisissez la taille de la mémoire à allouer à chaque pilote.
    • Executor cores : saisissez le nombre de cœurs d'exécuteurs.
    • Executor memory : saisissez la taille de la mémoire à allouer à chaque exécuteur.
  7. Dans le champ Spark "scratch" directory, saisissez le nom du répertoire dans lequel le Studio stocke les fichiers temporaires dans le système de fichiers local, par exemple les fichiers JAR à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, ce répertoire est C:/tmp.
  8. Activate checkpointing
  9. Dans la table Advanced properties, ajoutez toute propriété Spark à utiliser pour écraser la propriété équivalente utilisée par le Studio.

Results

Les informations de connexion sont renseignées. Vous êtes prêt·e à ordonnancer les exécutions de votre Job ou à l'exécuter immédiatement.