Import de données depuis le cluster - 7.3

Exemples d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation
Vous allez accéder aux données stockées dans HDFS (Hadoop File System), directement à partir de l'interface de Talend Data Preparation et les importer sous forme d'un jeu de données.

Procédure

  1. Dans la vue Datasets (Jeux de données) de la page d'accueil de Talend Data Preparation, cliquez sur la flèche blanche près du bouton Add Dataset (Ajouter un jeu de données).
  2. Sélectionnez HDFS.

    Le formulaire Add a HDFS dataset (Ajouter un jeu de données HDFS) s'ouvre.

  3. Dans le champ Dataset name (Nom du jeu de données), saisissez le nom à donner à votre jeu de données, HDFS_dataset dans cet exemple.
  4. Dans le champ User name (Utilisateur), saisissez le nom de votre utilisateur Linux sur le cluster.

    Cet utilisateur doit avoir les droits de lecture sur le fichier à importer.

  5. Dans cet exemple, laissez décochée la case Use Kerberos (Utiliser Kerberos).

    Si vous choisissez de vous authentifier via Kerberos, saisissez votre Principal et le chemin vers votre fichier keytab.

    Le fichier keytab doit être accessible par le Spark Job Server.

    Vous pouvez configurer manuellement Talend Data Preparation pour afficher une valeur par défaut dans ces champs.

  6. Dans le champ Format, sélectionnez le format dans lequel sont stockées vos données dans le cluster, .csv dans cet exemple.
  7. Dans le champ Path (Chemin), saisissez l'URL complète de votre fichier dans le cluster Hadoop.
  8. Cliquez sur Add dataset (Ajouter un jeu de données).

Résultats

Les données extraites du cluster s'ouvrent directement et vous pouvez commencer à travailler sur votre préparation.

Les données sont toujours stockées dans votre cluster et ne l'ont pas quitté. Talend Data Preparation récupère uniquement un échantillon à la demande.

Votre jeu de données est disponible dans la vue Datasets de la page d'accueil de l'application.