Fonctionnement d'un Job Talend Spark - 7.0

Guide utilisateur de Talend Big Data Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
Création et développement
EnrichPlatform
Studio Talend

Avec les composants spécifiques Spark, un Job Talend Spark utilise le framework Spark pour traiter les RDD (Resilient Distributed Datasets) sur un cluster Spark donné.

Un Job Talend Spark peut être exécuté dans l'un des modes suivants :

  • Local : le Studio construit l'environnement Spark en lui-même au moment de l'exécution locale du Job dans le Studio. Avec ce mode, chaque processeur de la machine locale est utilisé comme Worker Spark pour effectuer les calculs. Ce mode requiert la configuration d'un minimum de paramètres dans la vue de configuration.

    Notez que cette machine locale est la machine sur laquelle s'exécute le Job.

  • Standalone : le Studio se connecte à un cluster compatible Spark pour exécuter le Job depuis ce cluster.

  • Yarn client : le Studio exécute le pilote Spark pour orchestrer comment le Job doit être exécuté puis envoie l'orchestration au service Yarn d'un cluster Hadoop donné, afin que le Resource Manager de ce service Yarn demande des ressources pour l'exécution.