Configurer la connexion Hadoop d'un Job MapReduce - 7.1

Guide utilisateur de Talend Big Data Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
task
Création et développement
EnrichPlatform
Studio Talend

Avant de pouvoir exécuter un Job Talend MapReduce, configurez sa connexion à Hadoop.

Procédure

  1. Dans la vue Repository de la perspective Integration du Studio, double-cliquez sur le Job MapReduce, que vous avez créé et que vous souhaitez exécuter, afin de l'ouvrir dans l'espace de modélisation graphique.
  2. Cliquez sur l'onglet Run pour ouvrir la vue correspondante puis sur l'onglet Hadoop Configuration.

    Exemple

    Dans cette vue, vous devez configurer les paramètres pour créer la connexion au cluster Hadoop à utiliser.

    Pour plus d'explications concernant les paramètres de cette vue, consultez Configuration manuelle de la connexion à Hadoop.

    La connexion créée dans cette vue Hadoop configuration fonctionne uniquement pour le Job pour lequel elle a été créée.

    Si vous avez terminé la création du Job à l'aide des composants optimisés pour MapReduce, comme expliqué précédemment, le Job est prêt à être exécuté.

Résultats

La capture d'écran ci-dessous présente un Job MapReduce finalisé, avec une connexion à Hadoop et prêt à être exécuté.

Cliquez sur l'onglet Code pour ouvrir sa vue et visualiser le code MapReduce généré.

Cette capture d'écran affiche une partie du code généré, reflétant le flux de données rejects de votre Job. Vous pouvez constater que ce Job vérifie les informations de configuration et génère différentes classes, telles que InputFormat, OutputFormat, Mapper et Reducer.

Si vous sélectionnez l'une des classe générées, par exemple, tDenormalize_1Reducer.class et que vous appuyez sur F3, le code de cette classe s'affiche dans un nouvel onglet, comme suit :

Dans cette vue, vous pouvez voir comment est effectué le calcul Reduce.