Configurer les paramètres Knox avec CDP Public Cloud Data Hub - 7.3

Spark Batch

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch
Last publication date
2024-02-22

Le Studio Talend vous permet de vous authentifier à vos Jobs Spark Streaming et Spark Batch à l'aide de Knox avec une instance de CDP Public Cloud Data Hub en mode cluster YARN. Vous pouvez renseigner les paramètres de connexion à Knox, soit dans l'onglet Spark configuration de la vue Run de votre Job, soit dans l'assistant de métadonnées Hadoop Cluster Connection. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Dans ce scénario, la configuration via l'assistant de métadonnées Hadoop Cluster Connection est utilisée. Configurer la connexion à Knox dans le référentiel vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark.

Pour plus d'informations concernant la configuration via l'onglet Spark configuration de la vue Run de votre Job, consultez Configurer les paramètres de connexion à Cloudera.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Procédure

  1. Dans l'arborescence Repository de votre Studio, développez Metadata et cliquez-droit sur Hadoop cluster.
  2. Sélectionnez Create Hadoop cluster dans le menu contextuel pour ouvrir l'assistant Hadoop Cluster Connection.
  3. Renseignez les informations génériques de cette connexion, comme Name et Description, cliquez sur Next pour ouvrir la fenêtre Hadoop Configuration Import Wizard qui vous permet de sélectionner la distribution à utiliser et le mode manuel ou automatique pour configurer cette connexion.
    Important : Knox est supporté uniquement à partir de CDP 7.1.
  4. Sélectionnez Cloudera dans la liste déroulante Distribution et Cloudera CDP 7.1 dans la liste déroulante Version.
  5. Sélectionnez Enter manually Hadoop services et cliquez sur Finish.
  6. Cochez la case Use Knox et saisissez les paramètres de connexion associés à Knox :
    • Knox URL : saisissez l'URL Knox en respectant le format suivant https://<host>/<datahub>/cdp-proxy-api. L'URL Knox se trouve dans Cloudera Management Console, dans la section Endpoints de votre Data Hub, sous Livy Server.
      Important : Si vous avez installé la version R2021-07 ou un patch précédent, l'URL ne doit pas inclure /livy ou d'autre suffixe après cdp-proxy-api, à la fin. Si vous avez installé la version R2021-08 ou un patch suivant, l'URL fonctionne avec ou sans /livy à la fin.
    • Knox user  saisissez votre identifiant Workload User Name de Cloudera Management Console.
    • Knox password : saisissez votre Workload Password depuis Cloudera Management Console.
    • Knox directory : saisissez l'emplacement de stockage du fichier chargé dans HDFS.
    • Knox session timeout : spécifiez le temps d'attente total avant que le Job se reconnecte au cluster via Knox.
  7. Facultatif : Cliquez sur Check services pour vérifier que le Studio Talend peut se connecter aux services spécifiés dans cet assistant.
  8. Facultatif : Cliquez sur Export as context pour créer un contexte avec ces données et le sauvegarder dans le référentiel.
  9. Cliquez sur Finish pour valider vos modifications et fermer l'assistant.
    La nouvelle connexion à Hadoop s'affiche dans le dossier Hadoop cluster de la vue Repository.