Configurer et exécuter votre Job Spark avec CDP Public Cloud Data Hub sur AWS - Cloud - 8.0

Cloudera

Version
Cloud
8.0
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Distributions Hadoop > Cloudera

Le Studio Talend vous permet de déployer et exécuter vos Jobs Spark Batch et Spark Streaming sur un JobServer distant avec une instance de CDP Public Cloud Data Hub sur AWS.

Avant de commencer

Vérifiez les points suivants :

Procédure

  1. Connectez-vous à votre console Cloudera Management et allez dans l'onglet Data Hub Clusters, puis dans l'onglet Hardware.
  2. Assurez-vous que vous avez un hôte de passerelle disponible dans la section Gateway. Si aucune passerelle n'est disponible, vous devez en créer une nouvelle.
  3. Téléchargez votre JobServer pour l'installer sur la passerelle.
  4. Connectez-vous à AWS Management Console et, dans VPC Management Console, assurez-vous que les ports dans les onglets Inbound rules et Outbound rules configurés pour le JobServer sont ouverts.
  5. Connectez-vous à Cloudera Manager et, dans l'onglet Clusters, téléchargez tous les fichiers de configuration de votre cluster, puis dézippez-les au même emplacement de votre machine locale.
  6. Connectez-vous au Studio Talend et configurez manuellement la connexion à Hadoop, à l'aide de l'option Import configuration from local files. Pour plus d'informations, consultez la troisième étape, dans Définition de la connexion à Hadoop.
    Remarque :
    • Vous n'avez pas besoin de sélectionner une version Cloudera dans la liste déroulante. Comme le Studio Talend utilise les fichiers de configuration provenant des clusters d'instances CDP Public Cloud, il va utiliser la version du moteur d'exécution définie dans ces fichiers.
    • Vous devez donc activer le SSL et Kerberos.
  7. Exécutez votre Job sur le JobServer. Pour plus d'informations, consultez Exécuter un Job à distance.

Résultats

Vous pouvez à présent utiliser une instance de CDP Public Cloud Data Hub sur AWS, avec le Studio Talend.