Dans le Repository, configurer la métadonnée d'un fichier stocké dans HDFS vous permet de réutiliser directement son schéma dans un composant Big Data associé, sans avoir à configurer manuellement chaque paramètre.
Comme le fichier movies.csv que vous devez traiter a été stocké dans le système HDFS, vous pouvez récupérer son schéma afin de configurer ses métadonnées dans le Repository.
Le schéma du fichier directors.txt peut également être récupéré mais est délibérément ignoré lors de la procédure de récupération expliquée ci-dessous, car, dans ce scénario, le fichier directors.txt est utilisé pour démontrer comment définir manuellement un schéma dans un Job.
Avant de commencer
-
Vous avez démarré votre Studio Talend et ouvert la perspective Integration.
-
Les fichiers sources, movies.csv et directors.txt doivent avoir été chargés dans HDFS comme expliqué dans Chargement des fichiers dans HDFS.
-
La connexion au cluster Hadoop à utiliser et la connexion au système HDFS de ce cluster doivent avoir été configurées dans le nœud Hadoop cluster du Repository.
Si vous ne l'avez pas encore fait, consultez Configuration manuelle de la connexion à Hadoop puis Configuration de la connexion à HDFS pour créer ces connexions.
-
Le cluster Hadoop à utiliser doit avoir été correctement configuré et être en cours d'exécution. Vous devez avoir les droits d'accès à cette distribution et au dossier HDFS à utiliser.
-
Vérifiez que la machine cliente sur laquelle est installé le Studio Talend peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.
Par exemple, si le nom d'hôte du serveur du NameNode Hadoop est talend-cdh550.weave.local, et son adresse IP est 192.168.x.x, l'entrée du mapping est la suivante : 192.168.x.x talend-cdh550.weave.local.