Configurer les données d'entrée - 7.0

Guide de prise en main de Talend Data Fabric

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Fabric
task
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Le composant tHDFSInput et les composants tFileInputDelimited sont configurés pour charger des données de HDFS dans le Job.

Avant de commencer

  • les fichiers source, movies.csv et directors.txtdirectors.txt doivent avoir été chargés dans HDFS, comme expliqué dans Chargement des fichiers dans HDFS.

  • la métadonnée du fichier movie.csv a été configurée dans le dossier HDFS, sous le nœud Hadoop cluster, dans le Repository.

    Si ce n'est pas le cas, consultez Préparation de la métadonnée du fichier pour créer la métadonnée.

Procédure

  1. Développez le nœud Hadoop cluster sous le nœud Metadata du Repository, puis développez le nœud de connexion Hadoop my_cdh et ses fils pour afficher le nœud du schéma movies, configuré dans le dossier HDFS, comme expliqué dans Préparation de la métadonnée du fichier.
  2. Déposez ce schéma sur le composant tHDFSInput nommé movie, dans l'espace de modélisation graphique du Job.
  3. Double-cliquez sur le composant tHDFSInput nommé movie pour ouvrir sa vue Component.

    Le tHDFSInput a automatiquement réutilisé la configuration HDFS et la métadonnée du Repository afin de configurer les paramètres, dans la vue Basic settings.

  4. Double-cliquez sur le composant tFileInputDelimited nommé director pour ouvrir sa vue Component.
  5. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.
  6. Cliquez deux fois sur le bouton [+] pour ajouter deux lignes et, dans la colonne Column, renommez-les respectivement en ID et Name.
  7. Cliquez sur OK pour valider ces modifications et acceptez la propagation proposée par la boîte de dialogue qui s'ouvre.
  8. Dans le champ Folder/File, saisissez le chemin d'accès ou parcourez votre système jusqu'au répertoire où sont stockées les données relatives aux réalisateurs. Comme expliqué dans Chargement des fichiers dans HDFS, ces données ont été écrites dans le fichier /user/ychen/input_data/directors.txt.
  9. Dans le champ Field separator, saisissez une virgule (,), car ce caractère est utilisé pour séparer les données des réalisateurs.

Résultats

Les composants d'entrée sont configurés pour charger les données des films et réalisateurs dans le Job.