Exécuter un Job avec Spark Universal - Cloud

Exécuter un Job avec Spark Universal - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version

Cloud

8.0

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Cloud

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Studio Talend

Content

Création et développement

Last publication date

2024-04-16

Disponible dans...

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Spark Universal est un mécanisme permettant au Studio Talend d'être compatible avec toutes les distributions Big Data pour une version donnée de Spark. Vous choisissez une version de Spark et chargez un fichier JAR de configuration Hadoop contenant toutes les informations nécessaires à la connexion au cluster.

Modes Spark Universal et compatibilité des environnements

Le Studio Talend supporte les modes et environnements suivants, selon les versions de Spark :

Mode ou environnement	Spark 2.4.x	Spark 3.0.x	Spark 3.1.x	Spark 3.2.x	Spark 3.3.x	Spark 3.4.x
Local mode	Supporté	Supporté	Supporté	Supporté	Supporté	Supporté
Standalone	Non supporté	Non supporté	Non supportée	Supporté	Non supporté	Supporté
Mode Yarn cluster	Supporté	Supporté	Supporté	Supporté	Supportée	Non supporté
Databricks	Non supporté	Non supportée	Supporté	Supporté	Supporté	Supporté
Dataproc	Non supporté	Non supportée	Supporté	Supporté	Supportée	Non supporté
Cloudera Data Engineering	Non supporté	Non supportée	Supporté	Supportée	Non supporté	Non supporté
Kubernetes	Non supporté	Non supportée	Supporté	Non supporté	Non supporté	Non supporté
Spark-submit scripts (Scripts Spark-submit)	Non supporté	Non supporté	Non supporté	Non supportée	Supporté	Non supporté
Synapse	Non supporté	Non supporté	Non supportée	Supporté	Supportée	Non supporté
HDInsight	Non supporté	Non supportée	Supporté	Non supporté	Non supporté	Non supporté
EMR Serverless	Non supporté	Non supporté	Non supportée	Supporté	Supportée	Non supporté

Remarque :

Azure Synapse Analytics avec Spark Universal 3.2.x et 3.3.x est supporté uniquement dans les Jobs Spark Batch.
Les scripts Spark-submit avec Spark Universal 3.3.x sont supportés uniquement dans les Jobs Spark Batch.

Support des distributions Spark Universal

Le Studio Talend supporte les distributions suivantes en mode Yarn cluster (Cluster YARN), selon les versions de Spark :

Version de Spark	Distributions supportées en mode Yarn cluster (Cluster YARN)
Spark 2.4.x	Amazon EMR 5.2.x et supérieures CDH 6.x HDP 3.x
Spark 3.0.x	Amazon EMR 6.2 CDP 7.1
Spark 3.1.x	Amazon EMR 6.3.x, 6.4.x et 6.5.x
Spark 3.2.x	Amazon EMR 6.6.0 et 6.7.0
Spark 3.3.x	Amazon EMR 6.8.0, 6.9.0 et 6.10.0 CDP Private Cloud Base 7.1.8 et 7.1.9

Par exemple, si vous souhaitez vous connecter à un cluster Amazon EMR 6.2, vous devez sélectionner la version Spark 3.0.x et charger le fichier JAR de configuration Hadoop contenant tous les fichiers *-site.xml associés au cluster.

Cette liste de distributions n'est pas exhaustive. Vous pouvez utiliser un cluster YARN avec d'autres distributions si la version de Spark correspond. Cependant, gardez à l'esprit que ces configurations n'ont pas été officiellement testées par Talend et que leur fonctionnement n'est pas garanti.