Modifier le Job converti - 7.3

Guide de prise en main de Talend Big Data Platform

Version
7.3
Language
Français
Operating system
Big Data Platform
Product
Talend Big Data Platform
Module
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Content
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
Last publication date
2023-07-24

Vous pouvez mettre à jour les composants, si nécessaire, pour finaliser un processus de transformation de données dans le framework Spark Streaming.

Un cluster Kafka est utilisé au lieu du système DBFS afin de fournir les données relatives au streaming de films au Job. Les données des cinéastes sont ingérées depuis DBFS dans le flux Lookup.

Avant de commencer

  • Le cluster Databricks à utiliser a été correctement configuré et est en cours de fonctionnement.

  • L'administrateur du cluster doit avoir donné les droits d'accès en lecture/écriture à l'utilisateur ou l'utilisatrice accédant aux données et répertoires dans DBFS et dans le système de stockage Azure ADLS Gen2.

Procédure

  1. Dans le Repository, double-cliquez sur le Job aggregate_movie_director_spark_streaming pour l'ouvrir dans l'espace de modélisation graphique.

    L'icône indique que les composants utilisés dans le Job original n'existent pas dans le framework du Job courant, Spark Streaming. Dans cet exemple, les composants manquants sont le tHDFSInput et le tHDFSOutput.

  2. Cliquez sur le tHDFSInput pour le sélectionner puis, dans la boîte de dialogue Warning, cliquez sur OK pour fermer cette fenêtre.
  3. Appuyez sur la touche Delete de votre clavier afin de supprimer le tHDFSInput.
  4. Dans l'espace de modélisation graphique du Job, saisissez le nom du tFileInputDelimited et sélectionnez ce composant dans la liste qui s'affiche.

    Un tFileInputDelimited est ajouté à l'espace de modélisation graphique.

  5. Répétez l'opération pour remplacer le tHDFSOutput par un tFileOutputDelimited.
  6. Développez le nœud Hadoop cluster sous le nœud Metadata dans le Repository, puis le nœud de connexion my_cdh et son nœud enfant, pour afficher le nœud de métadonnées de schémas movies configuré dans le dossier HDFS.
  7. Déposez cette métadonnée sur le composant tFileInputDelimited dans l'espace de modélisation graphique du Job.
  8. Cliquez-droit sur le tFileInputDelimited et, dans le menu contextuel, sélectionnez Row > Main puis cliquez sur le tMap afin de le relier au tMap.
  9. Cliquez-droit sur le tMap et, dans le menu contextuel, sélectionnez Row > out1, puis cliquez sur le nouveau tFileOutputDelimited afin de relier tMap à ce composant.
  10. Double-cliquez sur le nouveau tFileOutputDelimited pour ouvrir sa vue Component.
  11. Dans le champ Folder, saisissez le chemin d'accès ou parcourez votre système jusqu'au répertoire dans lequel écrire les résultats. Dans ce scénario, le chemin est /user/ychen/output_data/spark_batch/out, recevant les enregistrements contenant les noms des cinéastes.
  12. Cochez la case Merge result to single file, afin de fusionner les fichiers part- générés par Spark en un seul fichier.

    Le champ Merge file path s'affiche.

  13. Dans le champ Merge file path, saisissez votre chemin d'accès ou parcourez votre système jusqu'au fichier dans lequel vous souhaitez fusionner les fichiers part-.

    Dans ce scénario, le fichier est /user/ychen/output_data/spark_batch/out/merged.

  14. Double-cliquez sur l'autre tFileOutputDelimited recevant le lien reject du tMap pour ouvrir sa vue Component.
  15. Dans le champ Folder, configurez le répertoire à /user/ychen/output_data/spark_batch/reject.
  16. Dans la vue Run, cliquez sur l'onglet Spark configuration afin de vérifier que les métadonnées de connexion à Hadoop/Spark ont bien été héritées du Job original.

    Vous devez toujours utiliser l'onglet Spark Configuration pour définir la connexion à une distribution Hadoop/Spark donnée pour le Job complet Spark Batch. Cette connexion est effective uniquement pour le Job dans lequel elle est définie.

  17. Si vous n'êtes pas sûr que le cluster Spark puisse résoudre le nom de l'hôte de la machine où est exécuté le Job, cochez la case Define the driver hostname or IP address et, dans le champ qui s'affiche, saisissez l'adresse IP de la machine.

    Si vous laissez décochée cette case, le cluster Spark cherche la machine située à l'emplacement 127.0.0.1, c’est-à-dire la machine dans le cluster pour le pilote Spark.

  18. Appuyez sur F6 pour exécuter le Job.

Résultats

La vue Run s'ouvre automatiquement dans la partie inférieure du Studio et affiche l'avancement de l'exécution du Job.

Cela fait, vous pouvez vérifier, par exemple, dans la console Web de votre système HDFS, que la sortie a bien été écrite dans HDFS.