Fonctionnement d'un Job Talend MapReduce - 6.5

Talend Real-Time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.5
EnrichProdName
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement
Qualité et préparation de données

Dans le Studio Talend, vous pouvez créer un Job MapReduce à l'aide des composants MapReduce dédiés et configurer la connexion au cluster Hadoop utilisé. Lors de l'exécution du Job, cette configuration permet au Studio d'invoquer l'API cliente fournie dans Hadoop (le package de l'API est org.apache.hadoop.mapred) puis de soumettre le Job MapReduce au service du ResourceManager du cluster Hadoop utilisé. Les ressources du Job sont ensuite copiées au système de fichiers distribué du même cluster. Enfin, le cluster Hadoop termine le reste de l'exécution en effectuant les tâches suivantes : initialisation du Job, génération de l'identifiant du Job et envoi au Studio des informations de progression de l'exécution et du résultat de cette dernière.

Notez qu'un Job MapReduce Talend n'est pas équivalent à un Job MapReduce comme décrit dans la documentation d'Apache concernant le MapReduce. Un Job MapReduce Talend génère un ou plusieurs programmes MapReduce (des jobs dans la terminologie d'Apache), selon la façon dont vous avez créé le Job Talend dans l'espace de modélisation graphique du Studio. Lorsque vous créez le Job, la barre de progression qui s'affiche avec les composants MapReduce déposés dans l'espace de modélisation graphique vous indique comment les programmes MapReduce sont générés ainsi que la progression de l'exécution de chaque opération Map ou Reduce. Le schéma suivant montre un exemple de Job MapReduce Talend :

Les barres de progression sous les composants montrent quand et combien de programmes map ou reduce sont effectués pendant l'exécution. Durant cette dernière, ces barres montrent également la progression de chacun de ces programmes.

Les informations d'exécution d'un Job MapReduce Talend sont enregistrées par le service du JobHistory du cluster Hadoop utilisé. Ainsi, vous pouvez consulter ces informations dans la console Web de ce service. Dans la console, le nom du Job est généré automatiquement suivant le modèle : ProjectName_JobName_JobVersion_FirstComponentName_ComponentID, par exemple, LOCALPROJECT_wordcount_0.1_tHDFSInput_1.