Lire les données d'exemples relatives aux détenteurs d'animaux - 7.1

Pig

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le composant tPigLoad principal pour ouvrir sa vue Component.
  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma puis cliquez trois fois sur le bouton [+] pour ajouter trois lignes.
  3. Dans la colonne Column, renommez les nouvelles lignes owner, pet et age, respectivement. Dans la colonne Type de la ligne age, sélectionnez Integer.
  4. Cliquez sur OK pour valider ces modifications et acceptez la propagation proposée par la boîte de dialogue qui s'ouvre.
  5. Dans la zone Mode, sélectionnez Map/Reduce pour utiliser le cluster Hadoop distant à utiliser.
  6. Dans les listes Distribution et Version, sélectionnez la distribution de Hadoop que vous utilisez. Dans cet exemple, sélectionnez HortonWorks Data Platform V2.1.0 (Baikal).
  7. Dans la liste Load function, sélectionnez PigStorage. Les paramètres à configurer s'affichent.
  8. Dans les champs NameNode URI et Resource manager, saisissez respectivement l'emplacement des services. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber ; WebHDFS avec SSL n'est pas supporté.
  9. Cochez la case Set Resourcemanager scheduler address et saisissez l'URI du service dans le champ qui s'affiche. Cela vous permet d'utiliser le service d'ordonnancement (Scheduler) défini dans le cluster Hadoop à utiliser. Si ce service n'est pas défini dans votre cluster, ignorez cette étape.
  10. Dans le champ User name, saisissez le nom de l'utilisateur possédant les droits pour écrire des données dans le cluster. Dans cet exemple, saisissez hdfs.
  11. Dans le champ Input file URI, saisissez le chemin d'accès à la relation de laquelle vous souhaitez lire des données. Comme expliqué précédemment, la relation à lire ici est celle contenant les données des maîtres et de leur animal.
  12. Dans le champ Field separator, saisissez le séparateur des données à lire. Dans cet exemple, saisissez un point-virgule ";".