Charger les données relatives à la circulation - 6.4

Pig

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tPigLoad nommé traffic pour ouvrir sa vue Component.
  2. Cliquez sur le bouton à côté du champ Edit schema pour ouvrir l'éditeur de schéma.
  3. Cliquez trois fois sur le bouton pour ajouter trois lignes et, dans la colonne Column, renommez-les respectivement date, street et traffic.
  4. Cliquez sur OK pour valider les modifications.
  5. Dans la zone Mode, sélectionnez l'option Map/Reduce, puisque le Studio Talend doit se connecter à une distribution Hadoop distante.
  6. Dans les listes Distribution et Version, sélectionnez la distribution Hadoop à utiliser. Dans cet exemple, sélectionnez Hortonworks Data Platform V1.0.0.
  7. Dans la liste Load function, sélectionnez la fonction PigStorage pour lire les données source, puisque les données sont contenues dans un fichier structuré au format UTF-8, humainement lisible.
  8. Dans les champs NameNode URI et Resource Manager, saisissez respectivement l'emplacement du nœud maître et le Resource Manager de la distribution Hadoop à utiliser. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber. Si ce WebHDFS est sécurisé via SSL, le schéma d'URI doit être swebhdfs et vous devez utiliser un tLibraryLoad dans le Job pour charger la bibliothèque requise par votre WebHDFS sécurisé.
  9. Dans le champ Input file URI, saisissez le chemin d'accès au répertoire dans lequel sont stockées les informations relatives à la circulation. Dans cet exemple, le chemin d'accès au répertoire est /user/ychen/tpigmap/date&traffic.
  10. Dans le champ Field separator, saisissez ; ou tout autre séparateur utilisé dans les données source.