Selecting the Spark mode - 7.1

MongoDB

author
Talend Documentation Team
EnrichVersion
Cloud
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Database > Composants MongoDB
Gouvernance de données > Systèmes tiers > Composants Database > Composants MongoDB
Qualité et préparation de données > Systèmes tiers > Composants Database > Composants MongoDB
EnrichPlatform
Studio Talend
Selon le cluster Spark à utiliser, sélectionnez un mode Spark pour votre Job.

Procédure

  1. Cliquez sur Run pour ouvrir cette vue et cliquez sur l'onglet Spark Configuration pour ouvrir cette vue et configurer la connexion à Spark.
  2. Cochez la case Use local mode pour tester localement votre Job.

    En mode local, le Studio construit l'environnement Spark en lui-même à la volée pour exécuter le Job dedans. Chaque processeur de la machine locale est utilisé comme worker Spark pour effectuer les calculs.

    Dans ce mode, votre système de fichiers local est utilisé. Désactivez les composants de configuration comme le tS3Configuration ou le tHDFSConfiguration fournissant les informations de connexion à un système de fichiers distant, si vous avez placé ces composants dans votre Job.

    Vous pouvez exécuter votre Job sans configuration supplémentaire.

  3. Décochez la case Use local mode pour afficher la liste des distributions Hadoop disponibles et, dans cette liste, sélectionnez la distribution correspondant au cluster Spark cluster à utiliser.
    La distribution peut être :
    • Azure Databricks

    • Databricks sur AWS

    • Qubole

    • Amazon EMR

      Pour cette distribution, Talend supporte les modes :
      • Client Yarn

      • Cluster Yarn

    • Cloudera

      Pour cette distribution, Talend supporte les modes :
      • Standalone

      • Client Yarn

      • Cluster Yarn

    • Google Cloud Dataproc

      Pour cette distribution, Talend supporte les modes :
      • Client Yarn

    • Hortonworks

      Pour cette distribution, Talend supporte les modes :
      • Client Yarn

      • Cluster Yarn

    • MapR

      Pour cette distribution, Talend supporte les modes :
      • Standalone

      • Client Yarn

      • Cluster Yarn

    • Microsoft HD Insight

      Pour cette distribution, Talend supporte les modes :
      • Cluster Yarn

    • Cloudera Altus

      Pour cette distribution, Talend supporte les modes :
      • Cluster Yarn

        Votre cluster Altus doit être exécuté sur les fournisseurs de Cloud suivants :
        • Azure

          Le support pour Altus sur Azure est une fonctionnalité de prévisualisation technique.

        • AWS

    Si vous ne trouvez pas votre distribution dans la liste déroulante, cela signifie que la distribution à laquelle vous souhaitez vous connecter n'est pas officiellement supportée par Talend. Dans ce cas, vous pouvez sélectionner Custom puis la version de Spark, dans la liste Spark version, du cluster auquel vous connecter. Cliquez sur le bouton [+] pour afficher une boîte de dialogue dans laquelle vous pouvez :

    1. Sélectionner Import from existing version pour importer une distribution de base officiellement supportée et ajouter manuellement les autres Jars requis non fournis par cette distribution.

    2. Sélectionner Import from zip pour importer le fichier .zip de configuration pour la distribution personnalisée à utiliser. Ce fichier .zip doit contenir les bibliothèques des différents éléments Hadoop/Spark et le fichier d'index de ces bibliothèques.

      Dans Talend Exchange, les membres de la communauté Talend ont partagé quelques fichiers zip de configuration prêts à l'emploi que vous pouvez télécharger depuis cette liste Hadoop configuration et utiliser directement dans votre connexion. Cependant, comme les différents projets relatifs à Hadoop ne cessent d'évoluer, il est possible que vous ne trouviez pas dans la liste le zip de configuration correspondant à votre distribution. Il est alors recommandé d'utiliser l'option Import from existing version, afin de se baser sur une distribution existante pour ajouter les .jars requis par votre distribution.

      Notez que les versions personnalisées ne sont pas officiellement supportées par Talend . Talend et sa Communauté fournissent l'opportunité de vous connecter à des versions personnalisées depuis le Studio mais ne peuvent garantir que la configuration de la version choisie sera simple. Il est recommandé de configurer ces connexions si vous avez une expérience suffisante de Hadoop et de Spark pour gérer par vous-même les problèmes pouvant survenir.

    Pour un exemple étape par étape expliquant comment se connecter à une distribution personnalisée et partager cette connexion, consultez Connexion à une distribution Hadoop personnalisée.