Exécuter un Job avec Spark Universal - 8.0

Guide d'utilisation de Talend Big Data Platform Studio

Version
8.0
Language
Français (France)
EnrichDitaval
Big Data Platform
Product
Talend Big Data Platform
Module
Studio Talend
Content
Création et développement
Spark Universal est un mécanisme permettant au Studio Talend d'être compatible avec toutes les distributions Big Data pour une version donnée de Spark. Vous choisissez une version de Spark et chargez un fichier JAR de configuration Hadoop contenant toutes les informations nécessaires à la connexion au cluster.

Modes Spark Universal et compatibilité des environnements

Le Studio Talend supporte les modes et environnements suivants, selon les versions de Spark :
  Spark 2.4.x Spark 3.0.x Spark 3.1.x Spark 3.2.x Spark 3.3.x
Local mode
Standalone
Mode Yarn cluster
Databricks
Dataproc
Cloudera Data Engineering
Kubernetes

Support des distributions Spark Universal

Le Studio Talend supporte les distributions suivantes en mode Yarn cluster (Cluster YARN), selon les versions de Spark :
Spark 2.4.x
  • Amazon EMR 5.2.x et supérieures
  • CDH 6.x
  • HDP 3.x
Spark 3.0.x
  • Amazon EMR 6.2
  • CDP 7.1
Spark 3.1.x
  • Amazon EMR 6.3.x, 6.4.x et 6.5.x
Spark 3.2.x
  • Amazon EMR 6.6.0
Par exemple, si vous souhaitez vous connecter à un cluster Amazon EMR 6.2, vous devez sélectionner la version Spark 3.0.x et charger le fichier JAR de configuration Hadoop contenant tous les fichiers *-site.xml associés au cluster.

Cette liste de distributions n'est pas exhaustive. Vous pouvez utiliser un cluster YARN avec d'autres distributions si la version de Spark correspond. Cependant, gardez à l'esprit que ces configurations n'ont pas été officiellement testées par Talend et que leur fonctionnement n'est pas garanti.