Lire des données depuis une connexion HDFS sur Spark

En utilisant une métadonnée HDFS prédéfinie, vous pouvez lire des données depuis un système de fichiers HDFS sur Spark.

Avant de commencer

Ce tutoriel utilise un cluster Hadoop. Vous devez avoir un cluster Hadoop disponible.
Vous avez également configuré une métadonnée HDFS (consultez Créer une définition de métadonnée de cluster Hadoop et Importer une définition de métadonnée de cluster Hadoop).
Vous avez configuré votre connexion HDFS sur Spark (consultez Configurer une connexion HDFS pour exécution sur Spark).

Procédure

Dans l'espace de modélisation graphique (Designer), ajoutez un composant d'entrée.
Exemple
Ajoutez un composant tFileInputDelimited.
Double-cliquez sur le composant.
Votre composant est configuré avec les informations du tHDFSConfiguration, dans Storage.
Cliquez sur le bouton […] près de Edit schema.
Cliquez sur le bouton [+] pour ajouter une colonne de données.
Exemple
1. CustomerID
2. FirstName
3. LastName
Sélectionnez la colonne Types.
Exemple
Pour CustomerID, sélectionnez Integer dans la liste Type.
Cliquez sur OK.
Dans le champ File Name, renseignez le chemin d'accès et le nom du fichier de votre choix.

Résultats

Le composant tFileInputDelimited est à présent configuré pour lire des données depuis HDFS sur Spark.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici