Hortonworks_Sandbox_Samples (Standard Jobs) - 6.1

Talend Real-time Big Data Platform Guide de prise en main

EnrichVersion
6.1
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Le dossier Hortonworks_Sandbox_Samples, sous le sous-nœud Standard Jobs regroupe les Jobs Talend standards conçus pour montrer comment gérer les données sur une plateforme Hadoop.

Dossier

Sous-dossier

Description

Advanced_Examples

 

Le dossier Advanced_Examples contient des cas d'utilisation comme le traitement de Weblogs Apache à l'aide des composants Apache Weblog, HCatalog et Pig de Talend, le chargement des données de dépenses du gouvernement américain à l'aide d'une requête Hive et un exemple de récupération des données depuis n'importe quelle base de données MySQL, ainsi que le chargement dynamique de toutes les données depuis toutes les tables.

S'il y a plusieurs étapes à effectuer afin d'exécuter un cas d'utilisation, ces étapes sont nommées Step_1, Step_2 et ainsi de suite.

 

ApacheWebLog

Ce dossier contient un processus de fichier Weblog classique qui montre comment charger un Weblog Apache dans HCatalog et HDFS et filtrer des codes spécifiques. Il y a deux exemples qui comptent le nombre d'adresses IP et de codes Web uniques. Ces exemples utilisent des scripts Pig et un effectuent chargement dans HCatalog. Il y a également des exemples de ces mêmes opérations utilisant des Jobs purement Map/Reduce, dans le sous-nœud Map/Reduce Jobs.

Il y a six étapes dans cet exemple. Effectuez chaque étape dans l'ordre indiqué dans le nom des Jobs.

Pour plus d'informations concernant cet exemple, consultez le chapitre relatif aux exemples de Jobs Big Data dans le Guide utilisateur de votre Studio qui vous guide, étape par étape, à travers la création et la configuration des Jobs d'exemple.

 

Gov_Spending_Analysis

Cet exemple est un processus en deux étapes qui charge des exemples de données de dépenses du gouvernement américain dans HCatalog. Ensuite, dans l'étape deux, ce processus utilise une requête Hive afin d'obtenir le montant total des dépenses par agence du gouvernement. Il y a un Job supplémentaire d'intégration de données qui récupère un fichier depuis le site http://usaspending.gov/data (en anglais) et le prépare pour les données d'entrée du Job qui charge les données dans HCatalog. Vous devez remplacer le composant tFixedFlowInput par le fichier d'entrée. Il y a également un exemple Map/Reduce qui calcule les dépenses les plus élevées des agences du gouvernement dans le sous-nœud Map/Reduce Jobs.

Il y a deux étapes dans cet exemple. Exécutez-les dans l'ordre indiqué dans le nom des Jobs.

 

RDBMS_Migration_SQOOP_EE

Cet exemple est un processus en deux étapes qui lit des données depuis n'importe quel schéma MySQL et les charge dans HDFS. La base de données peut être MySQL, de version 5.5 ou ultérieure. Le schéma doit comporter autant de tables que nécessaire. Configurez la base de données et le schéma dans les variables de contexte SQOOP_SCENARIO_CONTEXT afin que le premier Job lise dynamiquement le schéma et crée deux fichiers avec une liste des tables. Un fichier contient des tables avec des clés primaires à partitionner dans HCatalog ou Hive et l'autre contient ces mêmes tables sans les clés primaires. La deuxième étape utilise les deux fichiers afin de charger ensuite toutes les données depuis les tables MySQL du schéma dans HDFS. Il y a un fichier par table.

Lorsque vous exécutez ce processus, pensez à ne pas sélectionner un schéma contenant un volume important si vous utilisez une VM Sandbox à nœud simple, cette dernière n'étant pas très puissante. Pour plus d'informations sur la VM Sandbox à nœud simple, consultez Installer Hortonworks Sandbox.

Dans cet exemple, une parallélisation est utilisée afin de synchroniser facilement l'exécution des sous-Jobs, et vous pouvez facilement configurer le nombre de correspondances (mappers) et de réductions (reducers) par composant SQOOP et le nombre de threads qui démarreront en parallèle. Ainsi, ce processus en deux étapes s'adaptera à toutes les échelles grâce au Cluster Hadoop et au système de gestion de base de données relationnelle (SGBDR).

E2E_hCat_2_Hive

 

Ce dossier contient un processus très simple qui charge des données d'exemple dans HCatalog durant la première étape. La seconde étape montre comment utiliser les composants Hive pour accéder à ces données et les traiter.

HBASE

 

Ce dossier contient des exemples simples montrant comment charger et lire des données dans HBase.

HCATALOG

 

Il y a deux exemples pour HCatalog : le premier met les fichiers directement dans HDFS et charge ensuite le metastore avec les informations dans HCatalog. Le second exemple charge un flux de données directement dans HCatalog dans les partitions définies.

HDFS

 

Les exemples contenus dans ce dossier montrent des opérations HDFS de base comme Get, Put, et Streaming loads.

HIVE

 

Ce dossier contient trois exemples : le premier Job montre comment utiliser les composants Hive pour des opérations de base dans Hive, comme la création d'une base de données, la création d'une table et le chargement de données dans cette table. Les deux autres Jobs montrent comment charger deux tables dans Hive qui sont ensuite utilisées dans la deuxième étape. C'est un exemple d'ETL avec Hive.

PIG

 

Ce dossier contient différents exemples d'utilisation de composants Pig pour des fonctions clés telles que les agrégations et le tri, ainsi qu'un exemple de fonctionnement du code Pig.