Ajout d'un jeu de données depuis HDFS - 7.2

Guide d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation
Vous pouvez accéder aux données stockées dans HDFS (Hadoop File System), directement depuis l'interface de Talend Data Preparation et les importer sous forme d'un jeu de données.

Procédure

  1. Dans la vue Datasets de la page d'accueil de Talend Data Preparation, cliquez sur la flèche blanche près du bouton Add Dataset.
  2. Sélectionnez HDFS.

    Le formulaire Add an HDFS dataset s'ouvre.

  3. Dans le champ Dataset name, saisissez le nom à donner à votre jeu de données.
  4. Dans le champ User name, saisissez votre nom d'utilisateur Linux.

    Cet utilisateur doit avoir les droits de lecture sur le fichier à importer.

  5. Pour activer l'authentification Kerberos, cochez la case Use Kerberos.
  6. Dans Principal
  7. Dans le champ Keytab file, saisissez l'emplacement de votre fichier Keytab.
    Le fichier keytab doit être accessible par le Spark Job Server.

    Vous pouvez configurer manuellement Talend Data Preparation pour afficher une valeur par défaut dans ces champs.

  8. Dans le champ Format, sélectionnez le format correspondant au fichier à importer.
    Pour les fichiers HDFS, Talend Data Preparation supporte les formats CSV, AVRO et PARQUET.
    Avertissement : Talend Data Preparation ne supporte pas l'import de fichiers PARQUET avec des données de type INT96. Dans ce cas, nous vous recommendons d'ajuster le fichier source.

    Si vous choisissez le format CSV, sélectionnez le séparateur d'enregistrements et le séparateur de champs, le caractère pour entourer le texte et le caractère d'échappement, ainsi que l'encodage pour le fichier que vous souhaitez importer.

  9. Dans le champ Path, saisissez l'URL complète de votre fichier dans le cluster Hadoop.
  10. Cliquez sur le bouton Add Dataset.

Résultats

Les données extraites du cluster s'ouvrent directement. Vous pouvez commencer à travailler sur votre préparation.

Les données sont toujours stockées dans votre cluster et ne l'ont pas quitté. Talend Data Preparation récupère uniquement un échantillon à la demande.

Votre jeu de données est disponible dans la vue Datasets de la page d'accueil de l'application.