Fonctionnement d'un Job MapReduce Talend - 6.5

Talend Real-Time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.5
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Dans le Studio Talend, vous pouvez créer un Job MapReduce à l'aide des composants MapReduce dédiés et configurer la connexion au cluster Hadoop utilisé. A l'exécution du Job, cette configuration permet au Studio de faire appel au client API inclus dans Hadoop (le package de l'API est org.apache.hadoop.mapred) puis de soumettre le Job MapReduce au service du ResourceManager du cluster Hadoop utilisé. Les ressources du Job sont ensuite copiées au système de fichiers distribués du même cluster. Enfin, le cluster Hadoop termine le reste de l'exécution en effectuant les tâches suivantes : initialisation du Job, génération de l'identifiant du Job et envoi au Studio des informations de progression de l'exécution et du résultat de cette dernière.

Notez qu'un Job MapReduce Talend n'est pas équivalent à un job MapReduce comme décrit dans la documentation d'Apache concernant le MapReduce. Un Job MapReduce Talend génère un ou plusieurs programmes MapReduce (des jobs dans la terminologie d'Apache), selon la façon dont vous avez créé le Job Talend dans l'espace de modélisation graphique du Studio. Lorsque vous créez le Job, la barre de progression qui s'affiche avec les composants MapReduce déposés dans l'espace de modélisation graphique vous indique comment les programmes MapReduce sont générés ainsi que la progression de l'exécution de chaque opération map ou reduce. Le schéma suivant montre un exemple de Job MapReduce Talend :

Les barres de progression sous les composants montrent quand et combien de programmes map ou reduce sont effectués pendant l'exécution. Durant cette dernière, ces barres montrent également la progression de chacun de ces programmes.

Les informations d'exécution d'un Job MapReduce Talend sont recueillies par le service du JobHistory du cluster Hadoop utilisé. Ainsi, vous pouvez consulter ces informations dans la console Web de ce service. Le nom du Job dans la console est automatiquement construit de la manière suivante : ProjectName_JobName_JobVersion_FirstComponentName_ComponentID, soit par exemple, LOCALPROJECT_wordcount_0.1_tHDFSInput_1.