Scénario : Charger une table HBase - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario utilise les composants tPigLoad et tPigStoreResult pour lire des données de HBase et les écrire dans HDFS.

La table HBase à utiliser contient trois colonnes : id, name et age. id et age appartiennent à la famille de colonnes, family1 et name appartient à la famille de colonnes family2.

Les données stockées dans la table HBase se présentent comme suit :

1;Albert;23
2;Alexandre;24
3;Alfred-Hubert;22
4;Andre;40
5;Didier;28
6;Anthony;35
7;Artus;32
8;Catherine;34
9;Charles;21
10;Christophe;36
11;Christian;67
12;Danniel;54
13;Elisabeth;58
14;Emile;32
15;Gregory;30 

Pour reproduire ce scénario, effectuez les opérations suivantes :

Relier les composants

  1. Dans la perspective Integration du Studio Talend, créez un Job vide depuis le nœud Job Designs du Repository et nommez-le, par exemple, hbase_storage.

    Pour plus d'informations concernant la création d'un Job, consultez le Guide utilisateur du Studio Talend.

  2. Déposez un tPigLoad et un tPigStoreResult dans l'espace de modélisation graphique.

  3. Reliez-les à l'aide d'un lien Row > Pig combine.

Configurer le tPigLoad

  1. Double-cliquez sur le tPigLoad pour ouvrir sa vue Component.

  2. Cliquez sur le bouton à côté du champ Edit schema pour ouvrir l'éditeur de schéma.

  3. Cliquez quatre fois sur le bouton pour ajouter quatre lignes et renommez-les respectivement : rowkey, id, name et age. La colonne rowkey est la première du schéma, afin de stocker la colonne Row key de HBase, mais si vous n'avez pas besoin de charger cette colonne Row key, vous pouvez créer uniquement les trois autres colonnes du schéma.

  4. Cliquez sur OK pour valider les modifications et acceptez la propagation lorsqu'une boîte de dialogue vous la propose.

  5. Dans la zone Mode, sélectionnez Map/Reduce, puisque, dans cet exemple, vous utilisez une distribution Hadoop distante.

  6. Dans les champs Distribution et Version, sélectionnez la distribution Hadoop que vous utilisez. Dans cet exemple, utilisez HortonWorks Data Platform V1.

  7. Dans le champ Load function, sélectionnez HBaseStorage. Les paramètres à configurer apparaissent.

  8. Dans les champs NameNode URI et JobTracker host, saisissez l'emplacement de ces services.

  9. Dans les champs Zookeeper quorum et Zookeeper client port, saisissez les informations d'emplacement du service Zookeeper à utiliser.

  10. Si l'emplacement de Zookeeper znode parent a été défini dans le cluster Hadoop auquel vous vous connectez, cochez la case Set zookeeper znode parent et saisissez la valeur de la propriété dans le champ affiché.

  11. Dans le champ Table name, saisissez le nom de la table dont le tPigLoad lit les données.

  12. Cochez la case Load key si vous devez charger la colonne Row key de HBase. Dans cet exemple, la case est cochée.

  13. Dans la table Mapping, quatre lignes ont été automatiquement ajoutées. Dans la colonne Column family:qualifier, saisissez le nom des colonnes HBase en face des colonnes du schéma défini. Dans ce scénario, saisissez family1:id pour la colonne id, family2:name pour la colonne name et family1:age pour la colonne age.

Configurer le tPigStoreResult

  1. Double-cliquez sur le tPigStoreResult pour ouvrir sa vue Component.

  2. Dans le champ Result file, saisissez le chemin d'accès au répertoire dans lequel stocker le résultat. Comme le tPigStoreResult réutilise automatiquement la connexion créée par le tPigLoad, le chemin d'accès dans ce scénario est le répertoire de la machine hébergeant la distribution Hadoop à utiliser.

  3. Cochez la case Remove result directory if exists.

  4. Dans le champ Store function, sélectionnez PigStorage pour stocker les résultats au format UTF-8.

Exécuter le Job

Appuyez sur F6 pour exécuter le Job.

Vous pouvez vérifier les résultats dans le système HDFS utilisé.

Si vous souhaitez plus d'informations concernant le Job et son exécution, utilisez la console Web fournie par la distribution Hadoop que vous utilisez.

Dans le JobHistory, vous pouvez facilement trouver le statut d'exécution de votre Job Pig car il est automatiquement nommé. Son nom est le résultat de la concaténation du nom du projet contenant le Job, du nom du Job, de sa version et du libellé du premier composant tPigLoad utilisé. La convention de nommage d'un Job Pig dans le JobHistory est la suivante : ProjectName_JobNameVersion_FirstComponentName.