Configurer et exécuter votre Job Spark avec CDP Public Cloud Data Hub sur AWS - Cloud - 8.0

Cloudera

Version
Cloud
8.0
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Distributions Hadoop > Cloudera

Le Studio Talend vous permet de déployer et exécuter vos Jobs Spark Batch et Spark Streaming sur un JobServer distant avec une instance de CDP Public Cloud Data Hub.

Avant de commencer

Vérifiez les points suivants :

Procédure

  1. Connectez-vous au site Web de Cloudera Management et allez dans l'onglet Data Hub Clusters, puis dans la section Hardware.
  2. Assurez-vous d'avoir une hôte de passerelle ou créez-en un.
  3. Téléchargez votre JobServer pour l'installer sur la passerelle.
  4. Ouvrez les ports nécessaires, sortants et entrants, sur AWS.
  5. Téléchargez les fichiers de configuration depuis votre cluster et dézippez-les au même endroit.
  6. Configurez manuellement la connexion à Hadoop dans le Studio Talend à l'aide de l'option Import configuration from local files. Pour plus d'informations, consultez l'étape 3 de la documentation Configurer une connexion Hadoop.
    Remarque :
    • Vous n'avez pas besoin de sélectionner une version Cloudera dans la liste déroulante. Le Studio Talend interagit avec les clusters définis dans Cloudera Management Console.
    • Vous devez donc activer le SSL et Kerberos.
  7. Exécutez votre Job sur le JobServer. Pour plus d'informations, consultez Exécuter un Job à distance.