Définir les paramètres de connexion Kubernetes avec Spark Universal - Cloud - 8.0

Guide d'utilisation de Talend Data Fabric Studio

Version
Cloud
8.0
Language
Français (France)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Studio Talend
Content
Création et développement

Pourquoi et quand exécuter cette tâche

Complétez la configuration de la connexion à Spark Universal avec Kubernetes sur Spark 3.1.x dans l'onglet Spark configuration de la vue Run de votre Job Spark. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Big Data de Talend, et ne sont pas applicables aux utilisateurs et utilisatrices de Talend Open Studio for Big Data.

Procédure

  1. Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
  2. Sélectionnez Built-in dans la liste déroulante Property type.
    Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.
    Conseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
  3. Sélectionnez Universal dans la liste déroulante Distribution, Spark 3.1.x dans la liste déroulante Version et Kubernetes dans la liste déroulante Runtime mode/environment.
  4. Renseignez les paramètres Kubernetes configuration :
    Kubernetes master Saisissez l'adresse du serveur d'API en respectant le format suivant : k8s://https://<k8s-apiserver-host>:<k8s-apiserver-port>. Vous pouvez récupérer l'adresse à l'aide de la commande kubectl config view --minify dans votre invite de commande.
    Number of executor instances Saisissez le nombre d'exécuteurs à utiliser pour l'exécution du Job.
    Use registry secret Saisissez le mot de passe pour accéder à l'image Docker, si besoin.
    Docker Image Saisissez le nom de l'image Docker à utiliser pour l'exécution.
    Namespace Saisissez l'espace de noms du cluster Docker.
    Service account Saisissez le nom du compte de service à utiliser. Le compte de service doit avoir les droits suffisants sur le cluster Kubernetes.
    Cloud storage Sélectionnez dans la liste déroulante le fournisseur de Cloud à utiliser et saisissez les informations et identifiants dans les champs correspondants.
    Cloud storage > S3 Configurez les paramètres suivants pour vous connecter à S3 :
    • Bucket
    • Path to folder
    • Credentials type
    • Access key
    • Secret key
    Cloud storage > Blob Configurez les paramètres suivants pour vous connecter à Azure Blob Storage :
    • Path to folder
    • Blob storage account
    • Container name
    • Secret key
    Cloud storage > Adls gen 2 Configurez les paramètres suivants pour vous connecter à ADLS Gen2 :
    • Path to folder
    • Blob storage account
    • Credentials type
    • Container name
    • Secret key
  5. Saisissez les informations simples de Configuration :
    Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.
    Remarque :
    • Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
    • Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
    Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :
    • Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
    • Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
    Important : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
    Remarque : Les Jobs créés en 7.3 ou dans une version plus récente utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
    Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates.
    Remarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.
  6. Dans la table Advanced properties, ajoutez toute propriété Spark à utiliser pour écraser la propriété équivalente utilisée par le Studio.

Résultats

Les informations de connexion au cluster Kubernetes sont renseignées. Vous êtes prêt·e à ordonnancer les exécutions de votre Job Spark ou à l'exécuter immédiatement depuis ce cluster.