Déposer et relier des composants - 7.2

Guide de prise en main de Talend Open Studio for Big Data

EnrichVersion
7.2
EnrichProdName
Talend Open Studio for Big Data
EnrichPlatform
Studio Talend
task
Création et développement
Installation et mise à niveau
Les composants DBFS, Azure et de traitement à utiliser sont disposés dans l'espace de modélisation graphique pour permettre de créer un processus complet de transformation de données.

Avant de commencer

  • Vous avez démarré votre Studio Talend et ouvert la perspective Integration.

  • Un Job vide doit avoir été créé comme décrit dans Créer le Job et doit être ouvert dans l'espace de modélisation graphique.

Procédure

  1. Dans le Job, saisissez le nom du composant à utiliser et sélectionnez ce composant dans la liste qui s'affiche. Dans ce scénario, les composants sont : deux tFileInputDelimited, un tMap, deux tFileOutputDelimited, un tDBFSConnection, un tDBFSGet et un tAzureStoragePut.
    • Les composants DBFS sont connectés à votre système de fichiers Databricks (DBFS) pour télécharger les fichiers relatifs aux films et aux cinéastes.
    • Les deux composants tFileInputDelimited sont utilisés pour charger les données relatives aux films et aux cinéastes, respectivement, depuis votre système de fichiers local dans le flux de données du Job.

    • Le tMap est utilisé pour transformer les données d'entrée.

    • Les composants tFileOutputDelimited écrivent les résultats dans des répertoires donnés dans votre système local.

    • Le tAzureStoragePut est utilisé pour charger les données transformées dans un conteneur Azure Blob Storage.
  2. Double-cliquez sur le nom d'un des composants tFileInputDelimited pour le modifier, puis saisissez movie pour renommer le composant.
  3. Répétez l'opération pour nommer l'autre tFileInputDelimited director.
  4. Cliquez-droit sur le tDBFSConnection et, dans le menu contextuel qui s'affiche, sélectionnez Trigger > On Subjob Ok.
  5. Cliquez sur le tDBFSGet pour relier le tDBFSConnection au tDBFSGet.
  6. Répétez ces opérations pour utiliser systématiquement le lien On Subjob Ok pour relier le tDBFSGet au tFileInputDelimited nommé movie, puis reliez le même composant tFileInputDelimited au tAzureStoragePut.
  7. Cliquez-droit sur le tFileInputDelimited nommé movie, puis dans le menu contextuel, sélectionnez Row > Main et cliquez sur le tMap pour relier ces deux composants. Ce lien est le lien principal à travers lequel les données des films sont envoyées au tMap.
  8. Répétez l'opération pour relier le composant tFileInputDelimited director au tMap à l'aide du lien Row > Main. Ce lien Lookup est le lien de référence à travers lequel les données des cinéastes sont envoyées au tMap en tant que données de référence.
  9. Répétez l'opération pour lier le tMap au tFileOutputDelimited à l'aide d'un lien Row > Main. Dans la boîte de l'assistant qui s'ouvre, nommez le lien out1 et cliquez sur OK pour valider vos modifications.
  10. Répétez ces opérations pour relier le tMap à l'autre tFileOutputDelimited à l'aide du lienRow > Main et nommez-le reject.

Résultats

Le Job complet doit ressembler à ceci :