Configurer votre Job pour une exécution sur le cluster Hadoop - 7.3

Apprentissage automatique (Machine learning)

Version
7.3
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
Cette section explique comment configurer votre Job pour qu'il s'exécute directement sur le cluster Hadoop.

Procédure

  1. Cliquez sur Spark Configuration dans l'onglet Run.
  2. Ajoutez les propriétés avancées (Advanced properties) suivantes.
    La valeur est spécifique à la distribution et à la version de Hadoop. Ce tutoriel utilise Hortonworks 2.4 V3, la version 2.4.0.0-169. Votre entrée pour ce paramètre sera différente si vous n'utilisez pas Hortonworks 2.4 V3.
    Remarque : Lorsque vous exécutez le code sur le cluster, il est crucial de vous assurer que l'accès est libre entre les deux systèmes. Dans cet exemple, vous devez vous assurer que le cluster Hortonworks peut communiquer avec votre instance du Studio Talend. Cela est nécessaire car Spark, même s'il s'exécute sur le cluster, doit faire référence aux pilotes Spark fournis avec Talend. De plus, si vous déployez un Job Spark dans un environnement de production, il sera exécuté depuis un serveur de Jobs Talend (nœud de périphérie, edge node). Vous devez également vous assurer que la communication est libre entre lui et le cluster.

    Pour plus d'informations concernant les ports nécessaires à chaque service, consultez la documentation Spark Security (en anglais).

  3. Cliquez sur l'onglet Advanced settings et ajoutez un argument JVM indiquant la version de Hadoop. C'est la chaîne de caractères ajoutée en tant que valeur dans l'étape précédente.
  4. Cliquez sur l'onglet Basic Run, puis sur Run.
    Lorsque l'exécution est terminée, un message s'ouvre, vous indiquant sa réussite.
  5. Naviguez jusqu'au répertoire HDFS, Ambari dans ce cas, afin de vérifier que le modèle a été créé et persiste dans HDFS.