Écrire la sortie dans HDFS - 6.2

Talend Open Studio for Big Data Guide de prise en main

EnrichVersion
6.2
EnrichProdName
Talend Open Studio for Big Data
task
Création et développement
Installation et mise à niveau
EnrichPlatform
Studio Talend

Dans ce scénario, deux composants tPigStoreResult sont configurés pour écrire les données de films attendues et les données de films rejetées dans deux répertoires différents dans HDFS.

Prérequis :

  • Vous devez avoir vérifié que la machine cliente sur laquelle les Jobs Talend sont exécutés peut reconnaître les noms d'hôtes du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.

    Par exemple, si le nom d'hôte du serveur du NameNode Hadoop est talend-cdh550.weave.local et son adresse IP est 192.168.x.x, l'entrée du mapping est la suivante 192.168.x.x talend-cdh550.weave.local.

  • Le cluster Hadoop à utiliser doit avoir été configuré correctement et être en cours d'exécution.

Une fois les données des films et réalisateurs transformées par le tPigMap, vous devez configurer les deux composants tPigStoreResult pour écrire la sortie dans HDFS.

  1. Double-cliquez sur le tPigStoreResult relié à l'aide du lien out1.

    Sa vue Basic settings est ouverte dans la partie inférieure du Studio.

  2. Dans le champ Result file, saisissez le chemin d'accès au répertoire dans lequel écrire les résultats. Dans ce scénario, saisissez /user/ychen/output_data/out, le dossier recevant les enregistrements contenant les noms des réalisateurs.

  3. Cochez la case Remove result directory if exists.

  4. Dans la liste Store function, sélectionnez PigStorage pour écrire les enregistrements dans un format UTF-8 lisible par l'homme.

  5. Dans le champ Field separator, saisissez ; entre guillemets doubles.

  6. Répétez l'opération afin de configurer le tPigStoreResult relié à l'aide du lien reject, mais configurez le répertoire, dans le champ Result file à /user/ychen/output_data/reject.

  7. Appuyez sur F6 pour exécuter le Job.

    La vue Run s'ouvre automatiquement dans la partie inférieure du Studio et affiche l'avancement de l'exécution du Job.

Cela fait, vous pouvez vérifier, par exemple, dans la console Web de votre système HDFS, que la sortie a bien été écrite dans HDFS.