Création d'un Job Spark - 6.2

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Vous pouvez créer un Job Spark soit depuis le nœud Job Designs de la vue Repository, dans la perspective Integration, soit depuis le nœud Big Data Batch sous le nœud Job Designs. Les deux approches sont similaires. La procédure suivante vous explique comment créer un Job Spark depuis le nœud Job Designs.

  1. Cliquez-droit sur le nœud Job Designs et, dans le menu contextuel, sélectionnez Create Big Data Batch Job.

    L'assistant [New Big Data Batch Job] s'ouvre.

  2. Dans la liste Framework, sélectionnez Spark.

  3. Dans les champs Name, Purpose et Description, saisissez les informations descriptives (respectivement le nom, l'objectif et la description). Parmi ces informations, seul le nom du Job est obligatoire.

    Cela fait, le bouton Finish devient cliquable.

  4. Si vous devez modifier la version du Job, cliquez sur les boutons M et m à côté du champ Version pour effectuer les modifications.

    Si vous devez modifier le statut du Job, sélectionnez-le dans la liste déroulante du champ Status.

    Si vous devez modifier les informations dans les champs en lecture seule, sélectionnez File > Edit Project properties dans la barre du menu pour ouvrir la fenêtre Project Settings et effectuer les modifications souhaitées.

  5. Cliquez sur Finish pour fermer l'assistant et valider les modifications.

    Un Job vide s'affiche dans l'espace de modélisation graphique du Studio et les composants disponibles pour Spark s'affichent dans la Palette.

Dans la vue Repository, le Job Spark créé s'affiche automatiquement sous le nœud Big Data Batch, sous le nœud Job Designs.

Déposez depuis la Palette les composants à utiliser dans l'espace de modélisation graphique, reliez-les et configurez-les afin de créer un Job Spark, de la même manière que pour un Job standard. Vous devez également configurer la connexion au cluster Spark à utiliser dans l'onglet Spark configuration de la vue Run. Pour plus d'informations et pour un scénario associé concernant la création d'un Job Spark ainsi que la configuration d'une connexion Spark, consultez Guide de prise en main de Talend Big Data.

Vous pouvez répéter les mêmes opérations afin de créer un Job Spark Streaming. La seule différence est que vous devez sélectionner Create Big Data Streaming Job dans le menu contextuel après avoir cliqué-droit sur le nœud Job Designs et que vous devez sélectionner Spark Streaming dans la liste Framework de l'assistant [New Big Data Streaming Job] ouvert.

Notez que, si vous devez exécuter votre Job Spark dans un mode différent du mode Local, vous devez utiliser un composant de stockage, de la famille Storage, comme le tHDFSConfiguration, au sein du Job, afin que Spark utilise ce composant pour se connecter au système de fichiers auquel les fichiers .jar dépendants du Job seront transférés.

Pour plus d'informations concernant les propriétés à configurer dans chaque composant disponible pour les Jobs Talend Spark, consultez le Guide de référence des Composants Talend.

Vous pouvez également créer ces types de Jobs en écrivant leur script dans la vue Jobscript puis en les générant à partir de ce script.