Vous pouvez orchestrer les composants MapReduce dans l'espace de modélisation graphique du Job afin de créer un processus de transformation de données s'exécutant dans le framework MapReduce.
Avant de commencer
-
Vous avez démarré votre Studio Talend et ouvert la perspective Integration.
-
Un Job vide doit avoir été créé comme décrit dans Créer le Job MapReduce et doit être ouvert dans l'espace de modélisation graphique.
Procédure
-
Dans le Job, saisissez le nom du composant à utiliser et sélectionnez ce composant dans la liste qui s'affiche. Dans ce scénario, les composants sont : deux tHDFSInput, un tFileInputDelimited, un tMap, un tHDFSOutput et un tFileOutputDelimited.
-
Les composants tHDFSInput et tFileInputDelimited sont utilisés pour charger les données des films et réalisateurs, respectivement, depuis HDFS dans le flux de données du Job.
-
Le tMap est utilisé pour transformer les données d'entrée.
-
Les composants tHDFSOuput et tFileOutputDelimited écrivent les résultats dans les répertoires données de HDFS.
-
Double-cliquez sur le tHDFSInput pour pouvoir modifier son nom et saisissiez movie pour renommer le composant.
-
Répétez l'opération pour nommer le tFileInputDelimited director.
-
Cliquez-droit sur le composant tHDFSInput nommé movie et, dans le menu contextuel, sélectionnez Row > Main, puis cliquez sur le tMap, afin de le relier à tMap. Ce lien est le lien principal à travers lequel les données des films sont envoyées au tMap.
-
Répétez l'opération pour lier le composant director (tFileInputDelimited) au tMap, à l'aide d'un lien Row > Main. Ce lien Lookup est le lien de référence à travers lequel les données des réalisateurs sont envoyées au tMap en tant que données de référence.
-
Répétez l'opération pour lier le tMap au tHDFSOutput à l'aide d'un lien Row > Main. Dans la boîte de dialogue qui s'ouvre, nommez le lien out1 et cliquez sur OK pour valider.
-
Connectez le tMap au tFileOutputDelimited à l'aide d'un lien Row > Main que vous nommez reject.
Résultats
Votre Job doit ressembler à ceci dans l'espace de modélisation graphique :