Deux composants de sortie sont configurés pour écrire les données attendues des films et les données rejetées dans deux répertoires différents dans HDFS.
Avant de commencer
-
Vérifiez que la machine cliente sur laquelle les Jobs Talend sont exécutés peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.
Par exemple, si le nom d'hôte du serveur du NameNode Hadoop est talend-cdh550.weave.local, et son adresse IP est 192.168.x.x, l'entrée du mapping est la suivante : 192.168.x.x talend-cdh550.weave.local.
-
Le cluster Hadoop à utiliser a été correctement configuré et est en cours de fonctionnement.
-
L'administrateur du cluster doit avoir donné les droits d'accès en lecture/écriture à l'utilisateur accédant aux données et répertoires dans HDFS.
Procédure
-
Double-cliquez sur le tHDFSOutput recevant le lien out1.
Sa vue Basic settings est ouverte dans la partie inférieure du Studio.
-
Dans le champ Folder, saisissez le chemin d'accès ou parcourez votre système jusqu'au répertoire dans lequel écrire les résultats. Dans ce scénario, le chemin est /user/ychen/output_data/mapreduce/out, pointant vers le répertoire recevant les enregistrements contenant les noms des réalisateurs.
-
Sélectionnez Overwrite dans la liste Action. Ainsi, le répertoire cible est écrasé s'il existe déjà.
-
Cochez la case Merge result to single file afin de fusionner les fichiers part- générés par MapReduce en un seul fichier. Le champ Merge file path s'affiche.
-
Dans le champ Merge file path, saisissez le chemin d'accès ou parcourez votre système jusqu'au fichier dans lequel vous souhaitez fusionner les fichiers part-.
Dans ce scénario, le fichier est /user/ychen/output_data/mapreduce/out/merged.
-
Répétez les mêmes opérations afin de configurer le composant tFileOutputDelimited recevant le lien reject, mais configurez le répertoire, dans le champ Folder, à /user/ychen/output_data/mapreduce/reject et laissez décochée la case Merge result to single file.
-
Dans la vue Run, cliquez sur l'onglet Hadoop configuration afin de vérifier que la métadonnée de connexion à Hadoop a bien été importée depuis le Repository.
Vous devez toujours utiliser cet onglet Hadoop Configuration pour définir la connexion à une distribution Hadoop donnée pour le Job MapReduce complet. Cette connexion est effective sur le Job uniquement.
-
Appuyez sur F6 pour exécuter le Job.
Résultats
La vue Run s'ouvre automatiquement dans la partie inférieure du Studio et affiche l'avancement de l'exécution du Job.
Le Job lui-même affiche graphiquement la progression.
Cela fait, vous pouvez vérifier, par exemple, dans la console Web de votre système HDFS, que la sortie a bien été écrite dans HDFS.
Un fichier fusionné a été créé.