Configurer le tPigLoad - 6.4

Pig

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tPigLoad pour ouvrir sa vue Component.
  2. Cliquez sur le bouton à côté du champ Edit schema pour ouvrir l'éditeur de schéma.
  3. Cliquez quatre fois sur le bouton pour ajouter quatre lignes et renommez-les respectivement : rowkey, id, name et age. La colonne rowkey est la première du schéma, afin de stocker la colonne Row key de HBase, mais si vous n'avez pas besoin de charger cette colonne Row key, vous pouvez créer uniquement les trois autres colonnes du schéma.
  4. Cliquez sur OK pour valider les modifications et acceptez la propagation lorsqu'une boîte de dialogue vous la propose.
  5. Dans la zone Mode, sélectionnez Map/Reduce, puisque, dans cet exemple, vous utilisez une distribution Hadoop distante.
  6. Dans les champs Distribution et Version, sélectionnez la distribution Hadoop que vous utilisez. Dans cet exemple, utilisez HortonWorks Data Platform V1.
  7. Dans le champ Load function, sélectionnez HBaseStorage. Les paramètres à configurer apparaissent.
  8. Dans les champs NameNode URI et JobTracker host, saisissez l'emplacement de ces services. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber. Si ce WebHDFS est sécurisé via SSL, le schéma d'URI doit être swebhdfs et vous devez utiliser un tLibraryLoad dans le Job pour charger la bibliothèque requise par votre WebHDFS sécurisé.
  9. Dans les champs Zookeeper quorum et Zookeeper client port, saisissez les informations d'emplacement du service Zookeeper à utiliser.
  10. Si l'emplacement de Zookeeper znode parent a été défini dans le cluster Hadoop auquel vous vous connectez, cochez la case Set zookeeper znode parent et saisissez la valeur de la propriété dans le champ affiché.
  11. Dans le champ Table name, saisissez le nom de la table dont le tPigLoad lit les données.
  12. Cochez la case Load key si vous devez charger la colonne Row key de HBase. Dans cet exemple, la case est cochée.
  13. Dans la table Mapping, quatre lignes ont été automatiquement ajoutées. Dans la colonne Column family:qualifier, saisissez le nom des colonnes HBase en face des colonnes du schéma défini. Dans ce scénario, saisissez family1:id pour la colonne id, family2:name pour la colonne name et family1:age pour la colonne age.