Accéder au contenu principal Passer au contenu complémentaire

Import de données depuis le cluster

Vous allez accéder aux données stockées dans HDFS (Hadoop File System), directement à partir de l'interface de Talend Data Preparation et les importer sous forme d'un jeu de données.

Procédure

  1. Dans la vue Datasets (Jeux de données) de la page d'accueil de Talend Data Preparation, cliquez sur la flèche blanche près du bouton Add Dataset (Ajouter un jeu de données).
  2. Sélectionnez HDFS.

    Le formulaire Add a HDFS dataset (Ajouter un jeu de données HDFS) s'ouvre.

  3. Dans le champ Dataset name (Nom du jeu de données), saisissez le nom à donner à votre jeu de données, HDFS_dataset dans cet exemple.
  4. Dans le champ User name (Utilisateur), saisissez le nom de votre utilisateur·rice Linux sur le cluster.

    cet·te utilisateur·rice doit avoir les droits de lecture sur le fichier à importer.

  5. Dans cet exemple, laissez décochée la case Use Kerberos (Utiliser Kerberos).

    Si vous choisissez de vous authentifier via Kerberos, saisissez votre Principal et le chemin vers votre fichier keytab.

    Le fichier keytab doit être accessible par le Spark Job Server.

    Vous pouvez configurer manuellement Talend Data Preparation pour afficher une valeur par défaut dans ces champs.

  6. Dans le champ Format, sélectionnez le format dans lequel sont stockées vos données dans le cluster, .csv dans cet exemple.
  7. Dans le champ Path (Chemin), saisissez l'URL complète de votre fichier dans le cluster Hadoop.
  8. Cliquez sur Add dataset (Ajouter un jeu de données).

Résultats

Les données extraites du cluster s'ouvrent directement et vous pouvez commencer à travailler sur votre préparation.

Les données sont toujours stockées dans votre cluster et ne l'ont pas quitté. Talend Data Preparation récupère uniquement un échantillon à la demande.

Votre jeu de données est disponible dans la vue Datasets de la page d'accueil de l'application.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !