Exécuter un Job sur Spark ou YARN dans le Studio Talend - 7.3

Version
7.3
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch

Exécuter un Job sur Spark ou YARN

Dans ce tutoriel, créez un Job Big Data Batch s'exécutant sur Spark ou YARN et lisant des données depuis HDFS.

Créer un projet dans le Studio Talend

Créer un projet est la première étape d'utilisation du Studio Talend. Les projets vous permettent d'organiser votre travail.

Procédure

  1. Sélectionnez Create a new project.
  2. Saisissez un nom pour votre projet.

    Exemple

    TalendDemo
  3. Cliquez sur Create.
  4. Cliquez sur Finish.

Résultats

Votre projet s'ouvre. Vous êtes prêt·e à travailler dans le Studio Talend.

Créer un Job Big Data Batch pour utiliser Spark ou YARN

Pour le traitement de Big Data, le Studio Talend vous permet de créer des Jobs Batch et Streaming s'exécutant sur Spark ou MapReduce.

Avant de commencer

Sélectionnez la perspective Integration (Window > Perspective > Integration).

Procédure

  1. Dans le Repository, cliquez-droit sur Job Designs.
    1. Sélectionnez Create Big Data Batch Job.
  2. Dans le champ Name, saisissez un nom.

    Exemple

    ReadHDFS_Spark_or_YARN
  3. Sélectionnez un Framework.
    • Spark
    • MapReduce (deprecated)
  4. Facultatif : Dans le champ Purpose, saisissez un objectif.

    Exemple

    Read and sort customer data
  5. Facultatif : Dans le champ Description, saisissez une description.

    Exemple

    Read and sort customer data stored in HDFS from a Big Data Batch Job running on Spark or YARN
    Conseil : Saisir un objectif dans le champ Purpose et une Description permet une meilleure organisation.
  6. Cliquez sur Finish.

Résultats

L'espace de modélisation graphique (Designer) ouvre un Job vide.

Exécuter un Job sur Spark

Dans ce tutoriel, découvrez comment exécuter un Job sur Spark, dans le Studio Talend.

Configurer une connexion HDFS pour exécution sur Spark

Grâce au composant tHDFSConfiguration, vous pouvez connecter votre système de fichiers HDFS à Spark.

Avant de commencer

Procédure

  1. Dans le Repository, développez Metadata > Hadoop Cluster, puis la métadonnée du cluster Hadoop de votre choix.
    1. Développez le dossier HDFS de votre métadonnée de cluster Hadoop.
    2. Glissez-déposez la métadonnée HDFS dans l'espace de modélisation graphique (Designer).
    3. Sélectionnez le composant tHDFSConfiguration.
      La fenêtre Hadoop Configuration Update Confirmation s'ouvre.
  2. Cliquez sur OK.

Résultats

Le Studio Talend met à jour la configuration de Spark afin qu'elle corresponde à celle de la métadonnée du cluster.

Que faire ensuite

Dans la vue Run, cliquez sur Spark Configuration. L'exécution est configurée via la métadonnée de connexion HDFS.

Lire des données depuis une connexion HDFS sur Spark

En utilisant une métadonnée HDFS prédéfinie, vous pouvez lire des données depuis un système de fichiers HDFS sur Spark.

Avant de commencer

Procédure

  1. Dans l'espace de modélisation graphique (Designer), ajoutez un composant d'entrée.

    Exemple

    Ajoutez un composant tFileInputDelimited.
  2. Double-cliquez sur le composant.
    Votre composant est configuré avec les informations du tHDFSConfiguration, dans Storage.
  3. Cliquez sur le bouton […] près de Edit schema.
  4. Cliquez sur le bouton [+] pour ajouter une colonne de données.

    Exemple

    1. CustomerID
    2. FirstName
    3. LastName
  5. Sélectionnez la colonne Types.

    Exemple

    Pour CustomerID, sélectionnez Integer dans la liste Type.
  6. Cliquez sur OK.
  7. Dans le champ File Name, renseignez le chemin d'accès et le nom du fichier de votre choix.

Résultats

Le composant tFileInputDelimited est à présent configuré pour lire des données depuis HDFS sur Spark.

Exécuter un Job sur YARN

Dans ce tutoriel, découvrez comment exécuter un Job sur YARN, dans le Studio Talend.

Configurer une connexion HDFS pour exécution sur YARN

Grâce au composant tHDFSConfiguration, vous pouvez connecter votre système de fichiers HDFS à YARN.

Avant de commencer

Procédure

  1. Dans le Repository, développez Metadata > Hadoop Cluster, puis la métadonnée du cluster Hadoop de votre choix.
    1. Développez le dossier HDFS de votre métadonnée de cluster Hadoop.
    2. Glissez-déposez la métadonnée HDFS dans l'espace de modélisation graphique (Designer).
    3. Sélectionnez un composant d'entrée.

    Exemple

    Sélectionnez le composant tFileInputDelimited.
    La fenêtre Hadoop Configuration Update Confirmation s'ouvre.
  2. Cliquez sur OK.

Résultats

Le Studio Talend met à jour la configuration de YARN afin qu'elle corresponde à celle de la métadonnée du cluster.

Que faire ensuite

Dans la vue Run, cliquez sur Hadoop Configuration. L'exécution est configurée via la métadonnée de connexion HDFS.

Lire des données depuis une connexion HDFS sur YARN

En utilisant une métadonnée HDFS prédéfinie, vous pouvez lire des données depuis un système de fichiers HDFS sur YARN.

Avant de commencer

Procédure

  1. Double-cliquez sur votre composant d'entrée.
    Votre composant est configuré avec les informations de la métadonnée HDFS.
  2. Cliquez sur le bouton […] près de Edit schema.
  3. Cliquez sur le bouton [+] pour ajouter une colonne de données.

    Exemple

    1. CustomerID
    2. FirstName
    3. LastName
  4. Sélectionnez la colonne Types.

    Exemple

    Pour CustomerID, sélectionnez Integer dans la liste Type.
  5. Cliquez sur OK.
  6. Dans le champ File Name, renseignez le chemin d'accès et le nom du fichier de votre choix.

Résultats

Le composant tFileInputDelimited est à présent configuré pour lire des données depuis HDFS sur YARN.