Écrire la sortie dans HDFS

Guide de prise en main de Talend Big Data Platform

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
task
Installation et mise à niveau
Création et développement
Qualité et préparation de données > Profiling de données
Qualité et préparation de données > Nettoyage de données
Deux composants de sortie sont configurés pour écrire les données attendues des films et les données rejetées dans deux répertoires différents dans HDFS.

Avant de commencer

  • Vérifié que la machine cliente sur laquelle les Jobs Studio Talendsont exécutés peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.

    Par exemple, si le nom d'hôte du serveur du NameNode Hadoop est talend-cdh550.weave.local, et son adresse IP est 192.168.x.x, l'entrée du mapping est la suivante : 192.168.x.x talend-cdh550.weave.local.

  • le cluster Hadoop à utiliser doit avoir été configuré et être en cours d'exécution.

  • l'administrateur du cluster doit avoir donné les droits d'accès en lecture/écriture à l'utilisateur accédant aux données et répertoires dans HDFS.

Procédure

  1. Double-cliquez sur le tHDFSOutput recevant le lien out1.
    Sa vue Basic settings est ouverte dans la partie inférieure du Studio.
  2. Dans le champ Folder, saisissez le chemin d'accès ou parcourez votre système jusqu'au répertoire dans lequel écrire les résultats. Dans ce scénario, le chemin est /user/ychen/output_data/mapreduce/out, pointant vers le répertoire recevant les enregistrements contenant les noms des réalisateurs.
  3. Sélectionnez Overwrite dans la liste Action. Ainsi, le répertoire cible est écrasé s'il existe déjà.
  4. Cochez la case Merge result to single file afin de fusionner les fichiers part- générés par MapReduce en un seul fichier. Le champ Merge file path s'affiche.
  5. Dans le champ Merge file path, saisissez le chemin d'accès ou parcourez votre système jusqu'au fichier dans lequel vous souhaitez fusionner les fichiers part-.

    Dans ce scénario, le fichier est /user/ychen/output_data/mapreduce/out/merged.

  6. Répétez les mêmes opérations afin de configurer le composant tFileOutputDelimited recevant le lien rejectreject, mais configurez le répertoire, dans le champ Folder, à /user/ychen/output_data/mapreduce/reject et laissez décochée la case Merge result to single file.
  7. Dans la vue Run, cliquez sur l'onglet Hadoop configuration afin de vérifier que la métadonnée de connexion à Hadoop a bien été importée depuis le Repository.

    Vous devez toujours utiliser cet onglet Hadoop Configuration pour définir la connexion à une distribution Hadoop donnée pour le Job MapReduce complet. Cette connexion est effective sur le Job uniquement.

  8. Appuyez sur F6 pour exécuter le Job.

Résultats

La vue Run est automatiquement ouverte dans la partie inférieure du Studio et affiche l'avancement de l'exécution de ce Job.

Le Job lui-même affiche graphiquement la progression.

Cela fait, vous pouvez vérifier, par exemple dans la console Web de votre système HDFS, que la sortie a bien été écrite dans HDFS.

Un fichier fusionné a été créé.