Premières étapes de l'utilisation du Big Data dans le Studio Talend - 8.0

Version
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Distributions Hadoop

Premières étapes de l'utilisation du Big Data dans le Studio Talend

Dans ce tutoriel, vous effectuez vos premiers pas avec Big Data dans le Studio Talend.

Ce tutoriel utilise un cluster Hadoop. Vous devez avoir un cluster Hadoop disponible.

Créer un projet dans le Studio Talend

Créer un projet est la première étape d'utilisation du Studio Talend. Les projets vous permettent d'organiser votre travail.

Procédure

  1. Sélectionnez Create a new project.
  2. Saisissez un nom pour votre projet.

    Exemple

    TalendDemo
  3. Cliquez sur Create.
  4. Cliquez sur Finish.

Résultats

Votre projet s'ouvre. Vous êtes prêt·e à travailler dans le Studio Talend.

Créer un Job pour utiliser une connexion à un cluster Hadoop

Les projets du Studio Talend contiennent des Jobs. Dans les Jobs, vous pouvez construire des workflows via les composants, ce qui vous permet d'effectuer des actions spécifiques.

Avant de commencer

Sélectionnez la perspective Integration (Window > Perspective > Integration).

Procédure

  1. Dans le Repository, cliquez-droit sur Job Designs.
    1. Sélectionnez Create Standard Job.
  2. Dans le champ Name, saisissez un nom.

    Exemple

    ReadWriteHDFS
  3. Facultatif : Dans le champ Purpose, saisissez un objectif.

    Exemple

    Read/Write data in HDFS
  4. Facultatif : Dans le champ Description, saisissez une description.

    Exemple

    Standard job to write and read customers data to and from HDFS
    Conseil : Saisir un objectif dans le champ Purpose et une Description permet une meilleure organisation.
  5. Cliquez sur Finish.

Résultats

L'espace de modélisation graphique (Designer) ouvre un Job vide.

Créer une définition de métadonnée de cluster Hadoop

Vous pouvez créer une définition de métadonnée de cluster Hadoop pour pouvoir configurer rapidement votre composant avec les informations de connexion au cluster Hadoop. Le Studio Talend vous permet également d'importer une définition de métadonnée de cluster.

Avant de commencer

  • Ce tutoriel utilise un cluster Hadoop. Vous devez avoir un cluster Hadoop disponible.
  • Sélectionnez la perspective Integration (Window > Perspective > Integration).

Procédure

  1. Dans la vue Repository, développez Metadata, cliquez-droit sur Hadoop Cluster et sélectionnez Create Hadoop Cluster.
  2. Dans le champ Name, saisissez un nom.

    Exemple

    MyHadoopCluster
  3. Facultatif : Dans le champ Purpose, saisissez un objectif.

    Exemple

    Cluster connection metadata
  4. Facultatif : Dans le champ Description, saisissez une description.

    Exemple

    Metadata to connect to a Amazon EMR cluster
    Conseil : Saisir un objectif dans le champ Purpose et une Description permet une meilleure organisation.
  5. Cliquez sur Next.
  6. Sélectionnez une Distribution.

    Exemple

    Sélectionnez Amazon EMR et EMR 5.15.0 (Hadoop 2.8.3).
  7. Sélectionnez une Version.

    Exemple

    Sélectionnez EMR 5.15.0 (Hadoop 2.8.3).
  8. Sélectionnez Enter manually Hadoop services.
  9. Cliquez sur Finish.
    Vous arrivez dans la fenêtre Hadoop Cluster Connection.
  10. Saisissez vos informations de connexion.

    Exemple

    • Namecode URI : hdfs://hadoopcluster:8020
    • Resource Manager : hadoopcluster:8032
    • Resource Manager Scheduler : hadoopcluster:8030
    • Job History : hadoopcluster:10020
    • Staging directory : /user
  11. Saisissez vos informations d'Authentification.

    Exemple

    • User name : student
  12. Facultatif : Cliquez sur Check Services.
  13. Cliquez sur Finish.

Résultats

La définition de métadonnée de cluster Hadoop s'affiche dans le Repository.

Importer une définition de métadonnée de cluster Hadoop

Vous pouvez importer votre configuration de cluster Hadoop pour créer une définition de métadonnée de cluster Hadoop pour pouvoir configurer les composants rapidement avec ces informations. Le Studio Talend vous permet également de créer une définition de métadonnée de cluster à partir de zéro.

Avant de commencer

  • Ce tutoriel utilise un cluster Hadoop. Vous devez avoir un cluster Hadoop disponible.
  • Sélectionnez la perspective Integration (Window > Perspective > Integration).

Procédure

  1. Dans la vue Repository, développez Metadata, cliquez-droit sur Hadoop Cluster et sélectionnez Create Hadoop Cluster.
  2. Dans le champ Name, saisissez un nom.

    Exemple

    MyHadoopCluster_files
  3. Facultatif : Dans le champ Purpose, saisissez un objectif.

    Exemple

    Cluster connection metadata
  4. Facultatif : Dans le champ Description, saisissez une description.

    Exemple

    Metadata to connect to a Cloudera CDH cluster
    Conseil : Saisir un objectif dans le champ Purpose et une Description permet une meilleure organisation.
  5. Cliquez sur Next.
  6. Sélectionnez une Distribution.

    Exemple

    Sélectionnez Cloudera.
  7. Sélectionnez une Version.

    Exemple

    Sélectionnez Cloudera CDH6.1.1 [Built in].
  8. Sélectionnez Import configuration from local files.
  9. Cliquez sur Next.
  10. Dans Location, sélectionnez le fichier de votre choix dans l'explorateur de fichiers.
  11. Sélectionnez vos modules.

    Exemple

    Sélectionnez HDFS ou YARN.
  12. Cliquez sur Finish.

    Exemple

    Vous arrivez dans la fenêtre Hadoop Cluster Connection et vos informations de Connexion sont déjà renseignées.
  13. Facultatif : Cliquez sur Check Services.
  14. Cliquez sur Finish.

Résultats

La définition de métadonnée de cluster Hadoop s'affiche dans le Repository.

Écrire et lire des données dans HDFS

Dans ce tutoriel, découvrez comment écrire des données dans HDFS à l'aide de données aléatoirement générées. Ensuite, apprenez à lire les données depuis HDFS, à les trier et à afficher les résultats dans la console.

Générer des données aléatoires

Avec l'aide du composant tRowGenerator, le Studio Talend peut créer des données aléatoires vous permettant de tester ses fonctionnalités.

Pourquoi et quand exécuter cette tâche

Suivez les exemples pour créer une base de données client·es fictive.

Procédure

  1. Ajoutez un composant tRowGenerator.
    Ce composant vous permet de générer des données aléatoires à des fins de test.
  2. Double-cliquez sur le tRowGenerator.
    Vous arrivez dans la fenêtre de configuration du tRowGenerator.
  3. Cliquez sur le bouton [+] pour ajouter une colonne (Column).
    1. Dans le champ Column, saisissez un nom.

      Exemple

      1. CustomerID
      2. FirstName
      3. LastName
    2. Sélectionnez la colonne Types.

      Exemple

      1. Pour CustomerID, sélectionnez Integer dans la liste Type.
      2. Pour FirstName et LastName, sélectionnez String dans la liste Type.
    3. Sélectionnez la colonne Functions.

      Exemple

      1. Pour CustomerID, sélectionnez la fonction Numeric.random(int,int).

        Cette fonction génère des nombres aléatoires.

      2. Pour FirstName, sélectionnez la fonction TalendDataGenerator.getFirstName().

        Cette fonction génère des prénoms aléatoires.

      3. Pour LastName, sélectionnez la fonction TalendDataGenerator.getLastName().

        Cette fonction génère des noms de famille aléatoires.

  4. Facultatif : Configurez vos colonnes (Columns).

    Exemple

    Pour CustomerID, dans l'onglet Function parameters, saisissez une valeur maximale (max value) de 1000.
  5. Facultatif : Saisissez le nombre de lignes à générer dans le champ Number of Rows for RowGenerator.

    Exemple

    Saisissez 1000 pour créer mille client·es.
  6. Cliquez sur OK.

Résultats

Vous avez configuré un tRowGenerator pour générer des données aléatoires. Vous pouvez l'utiliser pour tester d'autres fonctionnalités du Studio Talend.

Que faire ensuite

Cliquez sur le bouton Preview dans l'onglet Preview pour essayer cette fonctionnalité.

Écrire des données depuis HDFS à l'aide des métadonnées

Grâce au composant tHDFSOutput, vous pouvez écrire des données dans HDFS.

Avant de commencer

Procédure

  1. Dans le Repository, développez Metadata > Hadoop Cluster, puis la métadonnée du cluster Hadoop de votre choix.
    1. Glissez-déposez la métadonnée HDFS dans l'espace de modélisation graphique (Designer).
      Vous arrivez dans la fenêtre Components.
    2. Sélectionnez un composant tHDFSOutput.
  2. Ajoutez un composant d'entrée.

    Exemple

    Ajoutez un composant tRowGenerator pour générer des données fictives à des fins de test (consultez Générer des données aléatoires).
  3. Cliquez-droit sur le composant d'entrée.
    1. Sélectionnez Row > Main.
    2. Cliquez sur le tHDFSOutput pour relier les deux composants.
  4. Double-cliquez sur le composant tHDFSOutput.

    Le composant est déjà configuré avec les informations de connexion de la métadonnée HDFS.

  5. Dans le champ File Name, renseignez le chemin d'accès et le nom du fichier de votre choix.
  6. Facultatif : Dans la liste Action, sélectionnez Overwrite.

Résultats

Votre composant d'entrée (comme le tRowGenerator) lit les données et le tHDFSOutput les écrit dans votre système HDFS, à l'aide d'une connexion définie dans les métadonnées.

Lire des données depuis HDFS à l'aide des métadonnées

Grâce au composant tHDFSInput, vous pouvez lire des données depuis HDFS.

Avant de commencer

Procédure

  1. Dans le Repository, développez Metadata > Hadoop Cluster, puis la métadonnée du cluster Hadoop de votre choix.
    1. Glissez-déposez la métadonnée HDFS dans l'espace de modélisation graphique (Designer).
    2. Sélectionnez un composant tHDFSInput.
  2. Double-cliquez sur le composant tHDFSInput.

    Le composant est déjà configuré avec les informations de connexion de la métadonnée HDFS.

  3. Dans le champ File Name, renseignez le chemin d'accès et le nom du fichier de votre choix.
  4. Cliquez sur le bouton [...] correspondant au champ Edit schema.
  5. Cliquez sur le bouton [+] pour ajouter une colonne (Column).
    1. Dans le champ Column, saisissez un nom.

      Exemple

      1. CustomerID
      2. FirstName
      3. LastName
    2. Sélectionnez la colonne Types.

      Exemple

      1. Pour CustomerID, sélectionnez Integer dans la liste Type.
      2. Pour FirstName et LastName, sélectionnez String dans la liste Type.
    3. Cliquez sur OK.
  6. Cliquez-droit sur le tRowGenerator.
    1. Sélectionnez Trigger > On Subjob OK.
    2. Cliquez sur le tHDFSInput pour relier les deux composants.
  7. Ajoutez un composant tSortRow.
  8. Cliquez-droit sur le composant tHDFSInput.
    1. Sélectionnez Row > Main.
    2. Cliquez sur le tSortRow pour relier les deux composants.
  9. Double-cliquez sur le tSortRow.
    1. Cliquez sur Sync columns.
      Le composant tSortRow hérite du schéma du composant tHDFSInput.
  10. Cliquez sur le bouton [+].
    La première colonne (column) du schéma de votre tHDFSInput s'affiche.
  11. Ajoutez un composant tLogRow.
  12. Cliquez-droit sur le tSortRow.
    1. Sélectionnez Row > Main.
    2. Cliquez sur le tLogRow pour relier les deux composants.
      Votre espace de modélisation graphique (Designer) doit ressembler à ceci.
  13. Double-cliquez sur le tLogRow.
    1. Sélectionnez l'option Table (print values in cells of a table).
  14. Dans la vue Run, cliquez sur le bouton Run pour exécuter votre Job.

Résultats

Votre composant d'entrée (comme le tRowGenerator) fournit les données au tHDFSOutput, qui les écrit dans votre système HDFS. Lorsque cette opération est terminée, le tHDFSInput lit les données, les fournit au tSortRow, qui les trie. Le tLogRow affiche les données HDFS triées.