Configurer les données d'entrée - 6.2

Talend Big Data Guide de prise en main

EnrichVersion
6.2
EnrichProdName
Talend Big Data
task
Création et développement
Déploiement
Installation et mise à niveau
EnrichPlatform
Studio Talend
Talend Administration Center
Talend CommandLine
Talend Installer
Talend Runtime

Le composant tHDFSInput et les composants tFileInputDelimited sont configurés pour charger des données de HDFS dans le Job.

Prérequis :

  • les fichiers source, movies.csv et directors.txt doivent avoir été chargés dans HDFS, comme expliqué dans Chargement des fichiers dans HDFS.

  • la métadonnée du fichier movie.csv a été configurée dans le dossier HDFS, sous le nœud Hadoop cluster, dans le Repository.

    Si ce n'est pas le cas, consultez Préparation de la métadonnée du fichier pour créer la métadonnée.

Une fois le Job créé, tous les composants MapReduce utilisés et reliés, vous devez configurer les composants d'entrée afin qu'ils lisent les données de HDFS.

  1. Développez le nœud Hadoop cluster sous le nœud Metadata du Repository, puis développez le nœud de connexion Hadoop my_cdh et ses fils, pour afficher le nœud du schéma movies, configuré dans le dossier HDFS, comme expliqué dans Préparation de la métadonnée du fichier.

  2. Déposez ce schéma sur le composant tHDFSInput nommé movie tHDFSInput, dans l'espace de modélisation graphique du Job.

  3. Double-cliquez sur le composant movie pour ouvrir sa vue Component.

    Le tHDFSInput a automatiquement réutilisé la configuration HDFS et la métadonnée du référentiel afin de configurer les paramètres, dans la vue Basic settings.

  4. Double-cliquez sur le composant director pour ouvrir sa vue Component.

  5. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.

  6. Cliquez deux fois sur le bouton [+] pour ajouter deux lignes et, dans la colonne Column, renommez-les respectivement en ID et Name.

  7. Cliquez sur OK afin de valider ces modifications et acceptez la propagation proposée par la boîte de dialogue.

  8. Dans le champ Folder/File, saisissez le chemin d'accès ou parcourez votre système jusqu'au répertoire où sont stockées les données relatives aux réalisateurs. Comme expliqué dans Chargement des fichiers dans HDFS, ces données ont été écrites dans le fichier /user/ychen/input_data/directors.txt.

  9. Dans le champ Field separator, saisissez une virgule (,), car ce caractère est utilisé pour séparer les données des réalisateurs.

Les composants d'entrée sont configurés pour charger les données des films et réalisateurs dans le Job.