Déposer et relier les composants Spark - 7.3

Guide de prise en main de Talend Big Data Platform

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Big Data Platform
task
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Vous pouvez orchestrer les composants Spark Batch dans l'espace de modélisation graphique du Job afin de créer un processus de transformation de données s'exécutant dans le framework Apache Spark Batch.

Avant de commencer

  • Vous avez démarré votre Studio Talend et ouvert la perspective Integration.

  • Un Job vide doit avoir été créé comme décrit dans Créer un Job Spark Batch et doit être ouvert dans l'espace de modélisation graphique.

Procédure

  1. Dans le Job, saisissez le nom du composant à utiliser et sélectionnez ce composant dans la liste qui s'affiche. Dans ce scénario, les composants sont : deux tFileInputDelimited, un tMap, deux tFileOutputParquet et un tAzureFSConfiguration.
    • Les composants tFileInputDelimited sont utilisés pour charger les données des films et des réalisateurs, respectivement, depuis le système de fichiers DBFS de votre plateforme Databricks Big Data dans le flux de données de votre Job.

    • Le tMap est utilisé pour transformer les données d'entrée.

    • Les composants tFileOutputParquet écrivent les résultats dans un répertoire de votre système Azure Data Lake Storage.

    • Le tAzureFSConfiguration fournit les informations nécessaires à une connexion à votre système Azure Data Lake Storage.
  2. Double-cliquez sur l'un des tFileInputDelimited pour modifier son nom, puis saisissez movie pour renommer le composant.
  3. Répétez l'opération pour nommer l'autre tFileInputDelimited director.
  4. Cliquez-droit sur le tFileInputDelimited nommé movie, et, dans le menu contextuel, sélectionnez Row > Main et cliquez sur le tMap afin de le relier au tMap. Ce lien est le lien principal à travers lequel les données des films sont envoyées au tMap.
  5. Répétez l'opération pour lier le composant director (tFileInputDelimited) au tMap, à l'aide d'un lien Row > Main. Ce lien Lookup est le lien de référence à travers lequel les données des réalisateurs sont envoyées au tMap en tant que données de référence.
  6. Répétez l'opération pour relier le tMap à un des tFileOutputParquet à l'aide d'un lien Row > Main, puis dans la boîte de dialogue de l'assistant, nommez ce lien out1 et cliquez sur OK pour valider vos modifications.
  7. Répétez l'opération pour relier le tMap au second tFileOutputParquet à l'aide d'un lien Row > Mainet nommez-le reject.

Résultats

Votre Job doit ressembler à ceci dans l'espace de modélisation graphique :