Création d'un Job Spark - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Vous pouvez créer un Job Spark soit depuis le nœud Job Designs de la vue Repository, dans la perspective Integration, soit depuis le nœud Big Data Batch sous le nœud Job Designs.

La procédure suivante vous explique comment créer un Job Spark depuis le nœud Job Designs.

Procédure

  1. Cliquez-droit sur le nœud Job Designs et, dans le menu contextuel, sélectionnez Create Big Data Batch Job.
    L'assistant New Big Data Batch Job s'ouvre.
  2. Dans la liste Framework, sélectionnez Spark.
  3. Dans les champs Name, Purpose et Description, saisissez respectivement le nom, l'objectif et la description du Job. Seul le nom du Job est obligatoire.
    Cela fait, le bouton Finish est activé.
  4. Si vous devez modifier la version du Job, cliquez sur le bouton M pour changer la version majeure et sur le bouton m pour changer la version mineure, dans le champ Version.
    Si vous devez modifier le statut du Job, sélectionnez-le dans la liste déroulante du champ Status.
    Si vous devez modifier les informations dans les champs en lecture seule, sélectionnez File > Edit Project properties dans la barre du menu pour ouvrir la fenêtre Project Settings et effectuer les modifications souhaitées.
  5. Cliquez sur Finish pour fermer l'assistant et valider les modifications.
    Un Job vide s'affiche dans l'espace de modélisation graphique du Studio Talend et les composants disponibles pour Spark s'affichent dans la Palette.

Résultats

Dans la vue Repository, le Job Spark créé s'affiche automatiquement sous le nœud Big Data Batch, sous le nœud Job Designs.

Déposez depuis la Palette les composants à utiliser dans l'espace de modélisation graphique, reliez-les et configurez-les afin de créer un Job Spark, de la même manière que pour un Job standard. Vous devez également configurer la connexion au cluster Spark à utiliser dans l'onglet Spark configuration de la vue Run.

Disponible dans :

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Vous pouvez répéter les mêmes opérations afin de créer un Job Spark Streaming. La seule différence est que vous devez sélectionner Create Big Data Streaming Job dans le menu contextuel après avoir cliqué-droit sur le nœud Job Designs et que vous devez sélectionner Spark Streaming dans la liste Framework de l'assistant [New Big Data Streaming Job] ouvert.

Après la création de votre Job Spark, vous pouvez réduire le temps d'exécution du Job via l'option lightweight dependencies (dépendances légères). Cette option réduit le nombre de bibliothèques aux seules bibliothèques Talend. Cela affecte donc la manière dont s'exécute le Job. Toutes les dépendances sont conservées mais ne sont pas envoyées au cluster lors de l'exécution. L'objectif est de prévenir les problèmes liés aux dépendances, aux signatures manquantes, aux versions de fichiers JAR erronées ou aux fichiers JAR manquants par exemple. Dans la vue Run, cliquez sur l'onglet Spark Configuration et cochez la case Use lightweight dependencies. Vous pouvez utiliser un autre classpath, différent de celui de Cloudera par défaut, en cochant la case Use custom classpath et en saisissant les Jar à utiliser, séparés par une virgule, au sein d'une expression régulière. Cette option est disponible pour les distributions suivantes :
  • Amazon EMR 6.2.0
  • Cloudera CDH 6.1.1 et autres versions 6.x compatibles via les distributions dynamiques
  • Cloudera CDP 7.1.1 et autres versions 7.x compatibles via les distributions dynamiques
Notez qu'il est recommandé d'utiliser Spark Universal pour utiliser des JAR avec Talend 8. Pour plus d'informations, consultez Exécuter un Job avec Spark Universal.
Vue Spark Configuration (Configuration de Spark) ouverte avec l'option "Use lightweight dependencies (Utiliser les dépendances légères)".

Notez que, si vous devez exécuter votre Job Spark dans un mode différent du mode Local et dans une distribution différente de Universal, vous devez utiliser un composant de stockage de la famille Storage, comme le composant tHDFSConfiguration, au sein du Job, afin que Spark utilise ce composant pour se connecter au système de fichiers auquel les fichiers JAR dépendants du Job seront transférés.

Vous pouvez également créer ces types de Jobs en écrivant leur script dans la vue Jobscript puis en les générant à partir de ce script. Pour plus d'informations concernant l'utilisation des scripts de Jobs, consultez le Guide de référence des scripts de Jobs Talend.