Déposer et relier les composants MapReduce

Guide de prise en main de Talend Big Data Platform

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
task
Installation et mise à niveau
Création et développement
Qualité et préparation de données > Profiling de données
Qualité et préparation de données > Nettoyage de données
Vous pouvez orchestrer les composants MapReduce dans l'espace de modélisation graphique du Job afin de créer un processus de transformation de données s'exécutant dans le framework MapReduce.

Avant de commencer

  • vous devez avoir démarré votre Studio Talend et ouvert la perspective Integration.

  • un Job vide doit avoir été créé comme décrit dans Créer le Job MapReduce et doit être ouvert dans l'espace de modélisation graphique.

Procédure

  1. Dans le Job, saisissez le nom du composant à utiliser et sélectionnez ce composant dans la liste qui s'affiche. Dans ce scénario, les composants sont : deux tHDFSInput, un tFileInputDelimited, un tMap, un tHDFSOutput et un tFileOutputDelimited.
    • Les composants tHDFSInput et tFileInputDelimited sont utilisés pour charger les données des films et réalisateurs, respectivement, depuis HDFS dans le flux de données du Job.

    • Le tMap est utilisé pour transformer les données d'entrée.

    • Les composants tHDFSOuput et tFileOutputDelimited écrivent les résultats dans les répertoires données de HDFS.

  2. Double-cliquez sur le tHDFSInput pour pouvoir modifier son nom et saisissiez moviemovie pour renommer le composant.
  3. Répétez l'opération pour nommer le tFileInputDelimited director.
  4. Cliquez-droit sur le composant tHDFSInput nommé movie et, dans le menu contextuel, sélectionnez Row > Main, puis cliquez sur le tMap, afin de relier ces deux composants. Ce lien est le lien principal à travers lequel les données des films sont envoyées au tMap.
  5. Répétez l'opération pour lier le composant director (tFileInputDelimited) au tMap, à l'aide d'un lien Row > Main. Ce lien Lookup est le lien de référence à travers lequel les données des réalisateurs sont envoyées au tMap en tant que données de référence.
  6. Répétez l'opération pour lier le tMap au tHDFSOutput à l'aide d'un lien Row > Main. Dans la boîte de dialogue qui s'ouvre, nommez le lien out1 et cliquez sur OK pour valider.
  7. Connectez le tMap au tFileOutputDelimited à l'aide d'un lien Row > Main que vous nommez reject.

Résultats

Votre Job doit ressembler à ceci dans l'espace de modélisation graphique :