Obtenir les données de HDFS - Cloud - 8.0

HDFS

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants File (Intégration) > Composants HDFS
Gouvernance de données > Systèmes tiers > Composants File (Intégration) > Composants HDFS
Qualité et préparation de données > Systèmes tiers > Composants File (Intégration) > Composants HDFS
Last publication date
2024-02-21

Procédure

  1. Dans l'espace de modélisation, sélectionnez le composant tHDFSGet et cliquez sur l'onglet Component pour définir sa configuration de base.
  2. Sélectionnez Apache 0.20.2 dans la liste Hadoop version.
  3. Dans les champs NameNode URI, Username, Group, saisissez les paramètres de connexion à HDFS. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber ; WebHDFS avec SSL n'est pas supporté.
  4. Dans le champ HDFS directory, saisissez l'emplacement de stockage du fichier chargé dans HDFS. Dans cet exemple, il s'agit de /testFile.
  5. Près du champ Local directory, cliquez sur le bouton [...] pour parcourir votre système jusqu'au dossier spécifié pour l'enregistrement des fichiers extraits d'HDFS. Dans ce scénario, le dossier est : C:/hadoopfiles/getFile/.
  6. Cliquez sur le champ Overwrite file pour développer le menu déroulant.
  7. Dans le menu, sélectionnez always (toujours).
  8. Dans la zone Files, cliquez sur le bouton [+] pour ajouter une ligne dans laquelle vous définissez le fichier à extraire.
  9. Dans la colonne File mask, saisissez *.txt entre guillemets pour remplacer newLine, et laissez la colonne New name telle quelle. Ceci vous permet d'extraire tous les fichiers .txt du dossier spécifié dans HDFS sans en modifier les noms. Dans cet exemple, le fichier est in.txt.