Lire des données depuis HDFS à l'aide des métadonnées

Grâce au composant tHDFSInput, vous pouvez lire des données depuis HDFS.

Avant de commencer

Ce tutoriel utilise un cluster Hadoop. Vous devez avoir un cluster Hadoop disponible.
Vous devez également avoir une métadonnée HDFS configurée (consultez Créer une définition de métadonnée de cluster Hadoop et Importer une définition de métadonnée de cluster Hadoop).
Vous devez avoir écrit des données dans HDFS (consultez Écrire des données depuis HDFS à l'aide des métadonnées).

Procédure

Dans le Repository, développez Metadata > Hadoop Cluster, puis la métadonnée du cluster Hadoop de votre choix.
1. Glissez-déposez la métadonnée HDFS dans l'espace de modélisation graphique (Designer).
2. Sélectionnez un composant tHDFSInput.
Double-cliquez sur le composant tHDFSInput.

Le composant est déjà configuré avec les informations de connexion de la métadonnée HDFS.
Dans le champ File Name, renseignez le chemin d'accès et le nom du fichier de votre choix.
Cliquez sur le bouton [...] correspondant au champ Edit schema.
Cliquez sur le bouton [+] pour ajouter une colonne (Column).
1. Dans le champ Column, saisissez un nom.
  Exemple
  1. CustomerID
  2. FirstName
  3. LastName
2. Sélectionnez la colonne Types.
  Exemple
  1. Pour CustomerID, sélectionnez Integer dans la liste Type.
  2. Pour FirstName et LastName, sélectionnez String dans la liste Type.
3. Cliquez sur OK.
Cliquez-droit sur le tRowGenerator.
1. Sélectionnez Trigger > On Subjob OK.
2. Cliquez sur le tHDFSInput pour relier les deux composants.
Ajoutez un composant tSortRow.
Cliquez-droit sur le composant tHDFSInput.
1. Sélectionnez Row > Main.
2. Cliquez sur le tSortRow pour relier les deux composants.
Double-cliquez sur le tSortRow.
1. Cliquez sur Sync columns.
  Le composant tSortRow hérite du schéma du composant tHDFSInput.
Cliquez sur le bouton [+].
La première colonne (column) du schéma de votre tHDFSInput s'affiche.
Ajoutez un composant tLogRow.
Cliquez-droit sur le tSortRow.
1. Sélectionnez Row > Main.
2. Cliquez sur le tLogRow pour relier les deux composants.
  Votre espace de modélisation graphique (Designer) doit ressembler à ceci.
Double-cliquez sur le tLogRow.
1. Sélectionnez l'option Table (print values in cells of a table).
Dans la vue Run, cliquez sur le bouton Run pour exécuter votre Job.

Résultats

Votre composant d'entrée (comme le tRowGenerator) fournit les données au tHDFSOutput, qui les écrit dans votre système HDFS. Lorsque cette opération est terminée, le tHDFSInput lit les données, les fournit au tSortRow, qui les trie. Le tLogRow affiche les données HDFS triées.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici