Configurer le tPigLoad - 7.1

Pig

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tPigLoad pour ouvrir sa vue Component.
  2. Cliquez sur le bouton à côté du champ Edit schema pour ouvrir l'éditeur de schéma.
  3. Cliquez deux fois sur le bouton pour ajouter deux lignes et nommez-les respectivement Name et State.
  4. Cliquez sur OK pour valider ces modifications et acceptez la propagation proposée par la boîte de dialogue qui s'ouvre.
  5. Dans la zone Mode, sélectionnez Map/Reduce. Le Hadoop à utiliser dans ce scénario est installé sur une machine distante. Une fois l'option sélectionnée, les paramètres à configurer apparaissent.
  6. Dans les listes Distribution et Version, sélectionnez la distribution de Hadoop à utiliser.
  7. Dans la liste Load function, sélectionnez PigStorage.
  8. Dans les champs NameNode URI et Resource Manager, saisissez l'emplacement du NameNode et du ResourceManager à utiliser pour Map/Reduce. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber ; WebHDFS avec SSL n'est pas supporté.
  9. Dans le champ Input file URI, saisissez l'emplacement des données à lire depuis HDFS. Dans cet exemple, l'emplacement est /user/ychen/raw/NameState.csv.
  10. Dans le champ Field separator, saisissez ;.