Chargement des fichiers dans HDFS

Guide de prise en main de Talend Big Data

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
task
Installation et mise à niveau
Création et développement

Charger un fichier dans HDFS permet à des Jobs Big Data de lire et traiter ce fichier.

Au cours de cette procédure, vous allez créer un Job écrivant des données dans le système HDFS du cluster Cloudera Hadoop auquel la connexion a été configurée dans le Repository, comme expliqué dans Configuration manuelle de la connexion à Hadoop. Ces données sont nécessaires pour le scénario décrit dans Tâches d'intégration de données pour Big Data. Pour les fichiers nécessaires à ce scénario, vous pouvez télécharger tbd_gettingstarted_source_files.zip depuis l'onglet Downloads du panneau de gauche de la page.

Avant de commencer

  • La connexion au cluster Hadoop à utiliser et la connexion au système HDFS de ce cluster doivent avoir été configurées dans le nœud Hadoop cluster du Repository.

    Si ce n'est pas le cas, consultez Configuration manuelle de la connexion à Hadoop et Configuration de la connexion à HDFS afin de créer ces connexions.

  • Le cluster Hadoop à utiliser doit avoir été configuré correctement et être en cours d'exécution. Vous devez avoir les droits d'accès à cette distribution et au dossier HDFS à utiliser.

  • Vérifié que la machine cliente sur laquelle les Jobs Studio Talendsont exécutés peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.

    Par exemple, si le nom d'hôte du serveur du NameNode Hadoop est talend-cdh550.weave.local, et son adresse IP est 192.168.x.x, l'entrée du mapping est la suivante : 192.168.x.x talend-cdh550.weave.local.

Procédure

  1. Dans la vue Repository, développez le nœud Job Designs, cliquez-droit sur le nœud Standard, et sélectionnez Create folder dans le menu contextuel.
  2. Dans l'assistant New Folder, nommez votre dossier de Jobs getting_started puis cliquez sur Finish pour créer votre dossier.
  3. Cliquez-droit sur le dossier getting_started et sélectionnez Create Standard Job dans le menu contextuel.
  4. Dans l'assistant New Job, saisissez un nom pour le Job à créer, ainsi que d'autres informations utiles.

    Par exemple, saisissez write_to_hdfs dans le champ Name.

    Dans cette étape de l'assistant, Name est le seul champ obligatoire. Les informations que vous fournissez dans le champ Description s'affichent en tant qu'info-bulle lorsque vous passez votre curseur sur le Job dans la vue Repository tree view.

  5. Développez le nœud Hadoop cluster sous Metadata dans le Repository.
  6. Développez la connexion Hadoop précédemment créée et le dossier HDFS en-dessous. Dans cet exemple, développez la connexion my_cdh.
  7. Déposez la connexion HDFS du dossier HDFS dans l'espace de modélisation graphique du Job que vous créez. Cette connexion est, dans cet exemple, cdh_hdfs.

    La fenêtre Components s'ouvre et affiche tous les composants pouvant directement utiliser cette connexion HDFS dans un Job.

  8. Sélectionnez le tHDFSPut et cliquez sur OK afin de valider votre choix.

    La fenêtre Components se ferme et un composant tHDFSPut est automatiquement ajouté dans l'espace de modélisation graphique du Job, composant nommé d'après la connexion HDFS mentionnée dans l'étape précédente.

  9. Double-cliquez sur le tHDFSPut pour ouvrir sa vue Component.

    La connexion au système HDFS à utiliser a été automatiquement configurée via la connexion HDFS configurée et stockée dans le Repository. Les paramètres dans cet onglet passent en lecture seule. Ces paramètres sont : Distribution, Version, NameNode URI, Use Datanode Hostname, User kerberos authentication et Username.

  10. Dans le champ Local directory, saisissez le chemin d'accès ou parcourez votre système jusqu'au dossier dans lequel stocker les fichiers à copier dans HDFS.

    Les fichiers concernant les films et leurs réalisateurs sont stockés dans ce répertoire.

  11. Dans le champ HDFS directory, saisissez le chemin d'accès ou parcourez votre système jusqu'au répertoire cible HDFS dans lequel stocker les fichiers.

    Ce répertoire est créé à la volée s'il n'existe pas.

  12. Dans la liste Overwrite file, sélectionnez always pour écraser les fichiers s'ils existent déjà dans le répertoire cible, dans HDFS.
  13. Dans la table Files, ajoutez une ligne en cliquant sur le bouton [+] afin de définir les critères de sélection des fichiers à copier.
  14. Dans la colonne Filemask, saisissez un astérisque (*) entre guillemets doubles, pour que le tHDFSPut sélectionne tous les fichiers stockés dans le dossier spécifié dans le champ Local directory.
  15. Laissez la colonne New name vide, c'est-à-dire, laissez les guillemets doubles par défaut pour ne pas modifier le nom des fichiers après chargement.
  16. Appuyez sur F6 pour exécuter le Job.

    La vue Run s'ouvre automatiquement et affiche l'avancement de l'exécution du Job.

Résultats

Lorsque le Job est terminé, les fichiers chargés se trouvent dans HDFS, dans le répertoire spécifié.