Configurer votre Job pour une exécution sur le cluster Hadoop - 7.3

Rapprochement de données à l'aide des outils Talend

Version
7.3
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07
Cette section explique comment configurer votre Job pour qu'il s'exécute directement sur le cluster Hadoop.

Procédure

  1. Cliquez sur Spark Configuration dans l'onglet Run.
  2. Ajoutez les propriétés avancées (Advanced properties) suivantes.
    La valeur est spécifique à la distribution et à la version de Hadoop. Ce tutoriel utilise Hortonworks 2.4 V3, la version 2.4.0.0-169. Votre entrée pour ce paramètre sera différente si vous n'utilisez pas Hortonworks 2.4 V3.
    Remarque : Lorsque vous exécutez le code sur le cluster, il est crucial de vous assurer que l'accès est libre entre les deux systèmes. Dans cet exemple, vous devez vous assurer que le cluster Hortonworks peut communiquer avec votre instance du Studio Talend. Cela est nécessaire car Spark, même s'il s'exécute sur le cluster, doit faire référence aux pilotes Spark fournis avec Talend. De plus, si vous déployez un Job Spark dans un environnement de production, il sera exécuté depuis un serveur de Jobs Talend (nœud de périphérie, edge node). Vous devez également vous assurer que la communication est libre entre lui et le cluster.

    Pour plus d'informations concernant les ports nécessaires à chaque service, consultez la documentation Spark Security (en anglais).

  3. Cliquez sur l'onglet Advanced settings et ajoutez un argument JVM indiquant la version de Hadoop. C'est la chaîne de caractères ajoutée en tant que valeur dans l'étape précédente.
  4. Cliquez sur l'onglet Basic Run, puis sur Run.
    Lorsque l'exécution est terminée, un message s'ouvre, vous indiquant sa réussite.
  5. Naviguez jusqu'au répertoire HDFS, Ambari dans ce cas, afin de vérifier que le modèle a été créé et persiste dans HDFS.