Configurer les paramètres Knox avec CDP Public Cloud Data Hub - Cloud - 8.0

Spark Batch

Version
Cloud
8.0
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch

Le Studio Talend vous permet de vous authentifier à vos Jobs Spark Streaming et Spark Batch à l'aide de Knox avec une instance de CDP Public Cloud Data Hub en mode cluster YARN. Vous pouvez renseigner les paramètres de connexion à Knox, soit dans l'onglet Spark configuration de la vue Run de votre Job, soit dans l'assistant de métadonnées Hadoop Cluster Connection. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Dans ce scénario, la configuration via l'assistant de métadonnées Hadoop Cluster Connection est utilisée. Configurer la connexion à Knox dans le référentiel vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark.

Pour plus d'informations concernant la configuration via l'onglet Spark configuration de la vue Run de votre Job, consultez Configurer les paramètres de connexion à Cloudera.

Les informations contenues dans cette section concernent uniquement les utilisateur·trice·s ayant souscrit à Talend Data Fabric ou à un produit Big Data de Talend, et ne sont pas applicables aux utilisateur·trice·s de Talend Open Studio for Big Data.

Procédure

  1. Dans l'arborescence Repository de votre Studio, développez Metadata et cliquez-droit sur Hadoop cluster.
  2. Sélectionnez Create Hadoop cluster dans le menu contextuel pour ouvrir l'assistant Hadoop Cluster Connection.
  3. Renseignez les informations génériques de cette connexion, comme Name et Description, cliquez sur Next pour ouvrir la fenêtre Hadoop Configuration Import Wizard qui vous permet de sélectionner la distribution à utiliser et le mode manuel ou automatique pour configurer cette connexion.
    Important : Knox est supporté uniquement à partir de CDP 7.1.
  4. Sélectionnez Cloudera dans la liste déroulante Distribution et Cloudera CDP 7.1 dans la liste déroulante Version.
  5. Sélectionnez Enter manually Hadoop services et cliquez sur Finish.
  6. Cochez la case Use Knox et saisissez les paramètres de connexion associés à Knox :
    • Knox URL : saisissez l'URL Knox en respectant le format suivant https://<host>/<datahub>/cdp-proxy-api. L'URL Knox se trouve dans Cloudera Management Console, dans la section Endpoints de votre Data Hub, sous Livy Server.
      Important : Si vous avez installé la version R2021-07 ou un patch précédent, l'URL ne doit pas inclure /livy ou d'autre suffixe après cdp-proxy-api, à la fin. Si vous avez installé la version R2021-08 ou un patch suivant, l'URL fonctionne avec ou sans /livy à la fin.
    • Knox user  saisissez votre identifiant Workload User Name de Cloudera Management Console.
    • Knox password : saisissez votre Workload Password depuis Cloudera Management Console.
    • Knox directory : saisissez l'emplacement de stockage du fichier chargé dans HDFS.
  7. Facultatif : Cliquez sur Check services pour vérifier que le Studio Talend peut se connecter aux services spécifiés dans cet assistant.
  8. Facultatif : Cliquez sur Export as context pour créer un contexte avec ces données et le sauvegarder dans le référentiel.
  9. Cliquez sur Finish pour valider vos modifications et fermer l'assistant.
    La nouvelle connexion à Hadoop s'affiche dans le dossier Hadoop cluster de la vue Repository.