Exécuter un Job avec Spark Universal - Cloud - 8.0

Guide d'utilisation de Talend Data Fabric Studio

Version
Cloud
8.0
Language
Français (France)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Studio Talend
Content
Création et développement

Spark Universal est un mécanisme permettant au Studio Talend d'être compatible avec toutes les distributions Big Data pour une version donnée de Spark. Vous choisissez une version de Spark et chargez un fichier JAR de configuration Hadoop contenant toutes les informations nécessaires à la connexion au cluster. Avec Spark Universal, vous pouvez facilement passer d'un mode Spark à un autre, d'une distribution Spark à une autre et d'un environnement Spark à un autre, en modifiant le fichier JAR de configuration Hadoop. Pour plus d'informations concernant comment passer d'un élément à un autre, consultez Passer d'un mode à l'autre, d'une distribution à l'autre ou d'un environnement à l'autre.

Le Studio Talend vous permet d'exécuter vos Jobs Spark sur une distribution Spark Universal dans l'un des modes et environnements suivants :

  • Local : le Studio construit l'environnement Spark en lui-même au moment de l'exécution locale du Job dans le Studio. Avec ce mode, chaque processeur de la machine locale est utilisé comme Worker Spark pour effectuer les calculs.
  • Yarn cluster : le Studio soumet des Jobs à YARN et ApplicationMaster et en collecte les informations d'exécution. Le pilote Spark s'exécute sur le cluster et peut s'exécuter indépendamment de votre Studio.
  • Kubernetes : le Studio soumet des Jobs et collecte les informations d'exécution de vos Jobs depuis Kubernetes. Le pilote Spark s'exécute sur le cluster géré par Kubernetes et peut s'exécuter indépendamment de votre Studio.
  • Databricks : le Studio soumet des Jobs et collecte les informations d'exécution de votre Job depuis Databricks. Le pilote Spark s'exécute sur un cluster Databricks transitoire ou sur un cluster Databricks interactif sur AWS et Azure.
  • Dataproc : le Studio soumet des Jobs et collecte les informations d'exécution de votre Job depuis Dataproc.
  • Cloudera Data Engineering : le Studio soumet les Jobs et en collecte les informations d'exécution depuis le service Cloudera Data Engineering.

Spark Universal modes and environments compatibility (Modes Spark Universal et compatibilité des environnements)

Le Studio Talend est compatible avec les modes et environnements suivants, selon les versions de Spark :
  Spark 2.4.x Spark 3.0.x Spark 3.1.x Spark 3.2.x
Local mode
Standalone
Mode Yarn cluster
Kubernetes
Databricks
Dataproc
Cloudera Data Engineering

Spark Universal distributions compatibility (Compatibilité avec les distributions Spark Universal)

Le Studio Talend est compatible avec les distributions suivantes en mode Yarn cluster (Cluster YARN), selon les versions de Spark :
Spark 2.4.x
  • Amazon EMR 5.2.x et supérieures
  • CDH 6.x
  • HDP 3.x
Spark 3.0.x
  • Amazon EMR 6.2
  • CDP 7.1
Spark 3.1.x
  • Amazon EMR 6.3.x, 6.4.x et 6.5.x
Par exemple, si vous souhaitez vous connecter à un cluster Amazon EMR 6.2, vous devez sélectionner la version Spark 3.0.x et charger le fichier JAR de configuration Hadoop contenant tous les fichiers *-site.xml associés au cluster.