Ajout d'un jeu de données depuis HDFS - 2.1

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation
Vous pouvez accéder aux données stockées dans HDFS (Hadoop File System), directement depuis l'interface de Talend Data Preparation et les importer sous forme d'un jeu de données.

Procédure

  1. Dans la vue Datasets de la page d'accueil de Talend Data Preparation, cliquez sur la flèche blanche à côté du bouton Add Dataset.
  2. Sélectionnez From HDFS.

    Le formulaire Add an HDFS dataset s'ouvre.

  3. Dans le champ Dataset name, saisissez le nom à donner à votre jeu de données.
  4. Dans le champ User name, saisissez votre nom d'utilisateur Linux.

    Cet utilisateur doit avoir les droits de lecture sur le fichier à importer.

  5. Pour activer l'authentification Kerberos, cochez la case Use Kerberos.
  6. Dans le champ Principal, saisissez le nom du Principal du service.
  7. Dans le champ Keytab file, saisissez l'emplacement de votre fichier Keytab.

    Le fichier keytab doit être accessible par le Spark Job Server.

    Vous pouvez configurer manuellement Talend Data Preparation pour afficher une valeur par défaut dans ces champs.

  8. Dans le champ Format, sélectionnez le format correspondant au fichier à importer.

    Pour les fichiers HDFS, Talend Data Preparation supporte les formats CSV, AVRO et PARQUET.

    Si vous choisissez le format CSV, sélectionnez le délimiteur d'enregistrements et le délimiteur de champs utilisés pour le fichier à importer.

  9. Dans le champ Path, saisissez l'URL complète de votre fichier dans le cluster Hadoop.
  10. Cliquez sur le bouton Add Dataset.

Résultats

Les données extraites du cluster s'ouvrent directement et vous pouvez commencer à travailler sur votre préparation.

Les données sont toujours stockées dans le cluster, Talend Data Preparation récupère seulement un échantillon sur demande.

Votre jeu de données est à présent disponible dans la vue Datasets de la page d’accueil de l'application.