Préparation de la métadonnée du fichier

Guide de prise en main de Talend Big Data Platform

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
task
Installation et mise à niveau
Création et développement
Qualité et préparation de données > Profiling de données
Qualité et préparation de données > Nettoyage de données

Dans le Repository, configurer la métadonnée d'un fichier stocké dans HDFS vous permet de réutiliser directement son schéma dans un composant Big Data associé, sans avoir à configurer manuellement chaque paramètre.

Comme le fichier movies.csv que vous devez traiter a été stocké dans le système HDFS, vous pouvez récupérer son schéma afin de configurer ses métadonnées dans le Repository.

Le schéma du fichier directors.txt peut également être récupéré mais est délibérément ignoré lors de la procédure de récupération expliquée ci-dessous, car, dans ce scénario, le fichier directors.txt est utilisé pour démontrer comment définir manuellement un schéma dans un Job.

Avant de commencer

  • Vous devez avoir démarré votre Studio Talend et ouvert la perspective Integration.

  • Les fichiers source, movies.csv et directors.txt doivent avoir été chargés dans HDFS comme expliqué dans Chargement des fichiers dans HDFS.

  • La connexion au cluster Hadoop à utliser et la connexion au système HDFS de ce cluster doivent avoir été configurées dans le nœud Hadoop cluster du Repository.

    Si ce n'est pas le cas, consultez Configuration manuelle de la connexion à Hadoop et Configuration de la connexion à HDFS pour créer ces connexions.

  • Le cluster Hadoop à utiliser doit avoir été correctement configuré et être en cours d'exécution. Vous devez avoir les droits d'accès à cette distribution et au dossier HDFS à utiliser.

  • Vérifiez que la machine cliente sur laquelle est installé le Studio Talend peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.

    Par exemple, si le nom d'hôte du serveur du NameNode Hadoop est talend-cdh550.weave.local, et son adresse IP est 192.168.x.x, l'entrée du mapping est la suivante : 192.168.x.x talend-cdh550.weave.local.

Procédure

  1. Développez le nœud Hadoop cluster sous Metadata dans la vue Repository.
  2. Développez la connexion Hadoop créée et le dossier HDFS en-dessous.

    Dans cet exemple, développez la connexion my_cdh.

  3. Cliquez-droit sur la connexion HDFS dans le dossier HDFS et, dans le menu contextuel, sélectionnez Retrieve schema.

    Dans ce scénario, cette connexion à HDFS se nomme cdh_hdfs.

    L'assistant Schema s'ouvre et vous permet de parcourir vos fichiers dans HDFS.

  4. Développez l'arborescence jusqu'à afficher le fichier movies.csv, duquel vous devez récupérer le schéma et sélectionnez-le.

    Dans ce scénario, le fichier movies.csv est stocké dans le répertoire suivant : /user/ychen/input_data.

  5. Cliquez sur Next pour afficher le schéma récupéré dans l'assistant.
    Le schéma des données de films est affiché dans l'assistant et la première ligne des données est automatiquement utilisée comme noms de colonnes.

    Si la première ligne des données que vous utilisez n'est pas utilisée pour les noms de colonnes, vous devez vérifier la configuration de l'option Header définie lors de la création de la connexion à HDFS, comme expliqué dans Configuration de la connexion à HDFS.

  6. Cliquez sur Finish afin de valider ces modifications.

Résultats

Vous pouvez voir la métadonnée sous la connexion à HDFS que vous utilisez, dans la vue Repository.