Configurer votre Job pour une exécution sur le cluster Hadoop - Cloud

Configurer votre Job pour une exécution sur le cluster Hadoop - Cloud - 8.0

Apprentissage automatique (Machine learning)

Version

Cloud

8.0

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Real-Time Big Data Platform

Module

Studio Talend

Content

Création et développement > Systèmes tiers > Composants Machine Learning

Gouvernance de données > Systèmes tiers > Composants Machine Learning

Qualité et préparation de données > Systèmes tiers > Composants Machine Learning

Last publication date

2024-02-21

Cette section explique comment configurer votre Job pour qu'il s'exécute directement sur le cluster Hadoop.

Procédure

Cliquez sur Spark Configuration dans l'onglet Run.
Ajoutez les propriétés avancées (Advanced properties) suivantes.

La valeur est spécifique à la distribution et à la version de Hadoop. Ce tutoriel utilise Hortonworks 2.4 V3, la version 2.4.0.0-169. Votre entrée pour ce paramètre sera différente si vous n'utilisez pas Hortonworks 2.4 V3.
Remarque : Lorsque vous exécutez le code sur le cluster, il est crucial de vous assurer que l'accès est libre entre les deux systèmes. Dans cet exemple, assurez-vous que le cluster Hortonworks peut communiquer avec votre instance du Studio Talend. Cela est nécessaire car Spark, même s'il s'exécute sur le cluster, doit faire référence aux pilotes Spark fournis avec Talend. De plus, si vous déployez un Job Spark dans un environnement de production, il sera exécuté depuis un serveur de Jobs Talend (nœud de périphérie, edge node). Vous devez également vous assurer que la communication est libre entre lui et le cluster.
Pour plus d'informations concernant les ports nécessaires à chaque service, consultez la documentation Spark Security (en anglais).
Cliquez sur l'onglet Advanced settings et ajoutez un argument JVM indiquant la version de Hadoop.
C'est la chaîne de caractères ajoutée en tant que valeur dans l'étape précédente.
Cliquez sur l'onglet Basic Run, puis sur Run.
Lorsque l'exécution est terminée, un message s'ouvre, vous indiquant sa réussite.
Naviguez jusqu'au répertoire HDFS, Ambari dans cet exemple, afin de vérifier que le modèle a été créé et persiste dans HDFS.