Configurer les données d'entrée - 6.3

Talend Open Studio for Big Data Guide de prise en main

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for Big Data
task
Création et développement
Installation et mise à niveau
EnrichPlatform
Studio Talend

Deux composants tPigLoad sont configurés pour charger des données de HDFS dans le Job.

Prérequis :

Une fois le Job créé et tous les composants Pig à utiliser inclus dans le Job et reliés, vous devez configurer les composants tPigLoad pour lire les données de HDFS.

  1. Développez le nœud Hadoop cluster sous Metadata dans le Repository puis le nœud de connexion Hadoop my_cdh et son nœud fils pour afficher le nœud du schéma de la métadonnée movies configuré, dans le dossier HDFS, comme expliqué dans Préparation de la métadonnée du fichier.

  2. Déposez ce schéma sur le composant tPigLoad nommé movie, dans l'espace de modélisation graphique du Job.

  3. Double-cliquez sur le composant tPigLoad nommé movie pour ouvrir sa vue Component.

    Le tPigLoad a réutilisé automatiquement la configuration HDFS et la métadonnée relative aux films pour définis ses paramètres dans la vue Basic settings.

  4. Dans la liste Load function, sélectionnez PigStorage pour utiliser la fonction PigStorage, une fonction built-in de Pig, pour charger les données des films en tant que fichier texte structuré.

    Pour plus d'informations concernant la fonction PigStorage de Pig, consultez PigStorage (en anglais).

  5. À partir du nœud de connexion Hadoop nommé my_cdh dans le Repository, déposez la connexion HDFS cdh_hdfs du dossier HDFS sur le composant tPigLoad nommé director dans l'espace de modélisation graphique du Job.

    Cela permet d'appliquer la configuration de la connexion HDFS précédemment créée dans le Repository sur les paramètres relatifs à HDFS dans le composant tPigLoad courant.

  6. Double-cliquez sur le composant director tPigLoad pour ouvrir sa vue Component.

    Ce composant tPigLoad a automatiquement réutilisé la configuration HDFS du Repository pour définir les paramètres associés dans la vue Basic settings.

  7. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.

  8. Cliquez deux fois sur le bouton [+] pour ajouter deux lignes et, dans la colonne Column, renommez-les ID et Name, respectivement.

  9. Cliquez sur OK pour valider ces modifications et acceptez la propagation proposée par la boîte de dialogue.

  10. Dans la liste Load function, sélectionnez PigStorage pour utiliser la fonction PigStorage.

  11. Dans le champ Input file URI, saisissez le chemin d'accès au répertoire où sont stockées les données relatives aux réalisateurs. Comme expliqué dans Chargement des fichiers dans HDFS, ces données ont été écrites dans /user/ychen/input_data/directors.txt.

  12. Cliquez dans le champ Field separator pour ouvrir la boîte de dialogue [Edit parameter using repository] pour mettre à jour le séparateur de champs.

    Vous devez modifier ce séparateur de champs car ce tPigLoad utilise le séparateur par défaut, un point-virgule (;), défini pour la métadonnée HDFS, alors que les données contiennent une virgule (,) comme séparateur.

  13. Sélectionnez Change to built-in property puis cliquez sur OK pour valider votre choix.

    Le champ Field separator devient modifiable.

  14. Saisissez une virgule entre guillemets doubles.

Les composants tPigLoad sont configurés pour charger les données des films et réalisateurs dans le Job.