Configurer les paramètres de connexion à Cloudera Altus - 7.1

Spark Batch

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch
EnrichPlatform
Studio Talend

Terminez la configuration de la connexion à Altus dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn cluster est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Avant de commencer

Prérequis :

L'interface en ligne de commande d'Altus du client Cloudera Altus doit être installée sur la machine sur laquelle est exécuté votre Job :

Procédure

  1. Dans l'onglet Spark configuration de la vue Run de votre Job, saisissez les informations de connexion à Cloudera Altus.

    Force Cloudera Altus credentials

    Cochez cette case pour fournir les identifiants d'authentification à votre Job.

    Décochez cette case, si vous souhaitez fournir les identifiants d'authentification séparément, par exemple en utilisant manuellement la commande altus configure dans votre terminal.

    Path to Cloudera Altus CLI

    Saisissez le chemin d'accès au client Cloudera Altus, installé et activé sur la machine sur laquelle est exécuté votre Job. En environnement de production, cette machine est généralement un Jobserver Talend.

  2. Configurez le cluster virtuel Cloudera à utiliser.

    Use an existing Cloudera Altus cluster

    Cochez cette case pour utiliser un cluster Cloudera Altus déjà existant dans votre service Cloud. Autrement, laissez la case décochée pour autoriser le Job à créer un cluster à la volée.

    Si cette case est cochée, seul le paramètre du nom du cluster est utile. Les autres paramètres pour la configuration du cluster sont masqués.

    Cluster name

    Saisissez le nom du cluster à utiliser.

    Environment

    Saisissez le nom de l'environnement Cloudera Altus à utiliser pour définir les ressources allouées au cluster.

    Si vous ne savez pas quel environnement sélectionner, contactez votre administrateur Cloudera Altus.

    Delete cluster after execution

    Cochez cette case si vous souhaitez supprimer le cluster après l'exécution de votre Job.

    Override with a JSON configuration

    Cochez cette case pour modifier manuellement le code JSON dans le champ Custom JSON affiché pour configurer le cluster.

    Instance type

    Sélectionnez le type d'instance pour les instances du cluster. Tous les nœuds déployés dans ce cluster utilisent le même type d'instance.

    Worker node

    Saisissez le nombre de nœuds workers à créer pour le cluster.

    Pour plus d'informations concernant le nombre autorisé de nœuds workers, consultez la documentation de Cloudera Altus (en anglais).

    Cloudera Manager username et Cloudera Manager password

    Saisissez les informations d'authentification à votre service Cloudera Manager.

    SSH private key

    Naviguez ou saisissez le chemin d'accès à la clé privée SSH pour la charger et l'enregistrer dans la région spécifiée dans l'environnement Cloudera Altus.

    Le service Data Engineering de Cloudera Altus utilise cette clé privée pour accéder aux instances du cluster à utiliser et les configurer.

    Custom bootstrap script

    Si vous souhaitez créer un cluster avec un script de bootstrapping que vous fournissez, parcourez votre système ou saisissez le chemin d'accès à ce script dans le champ Custom Bootstrap script.

    Pour un exemple de script Altus de bootstrapping, consultez Install a custom Python environment when creating a cluster (en anglais) dans la documentation Cloudera.

  3. Dans la liste Cloud provider, sélectionnez le service Cloud qui exécute votre cluster Cloudera Altus.
    • Si votre fournisseur de Cloud est AWS, sélectionnez AWS et définissez le répertoire Amazon S3 dans lequel vous stockez les dépendances de votre Job.

      AWS

      • Access key et Secret key : renseignez les informations d'authentification requises pour vous connecter au bucket Amazon S3 à utiliser.

        Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

      • Spécifiez la zone géographique AWS en sélectionnant le nom d'une zone géographique dans la liste ou en saisissant le nom de la zone entre guillemets doubles ("us-east-1" par exemple) dans la liste. Pour plus d'informations concernant les zones géographiques AWS, consultez Régions et points de terminaison AWS .

      • S3 bucket name : saisissez le nom du bucket à utiliser pour stocker les dépendances de votre Job. Ce bucket doit déjà exister.

      • S3 storage path : saisissez le chemin d'accès au répertoire dans lequel vous souhaitez stocker les dépendances de votre Job dans ce bucket, par exemple, altus/jobjar. Ce répertoire est créé s'il n'existe pas lors de l'exécution.

      Le stockage Amazon S3 spécifié ici est utilisé pour stocker les dépendances de votre Job uniquement. Pour vous connecter au système S3 hébergeant vos données, utilisez un composant tS3Configuration dans votre Job.

    • Si votre fournisseur de Cloud est Azure, sélectionnez Azure pour stocker les dépendances de votre Job dans Azure Data Lake Storage.

      1. Dans le portail Azure, assignez les autorisations en lecture/écriture/exécution (Read/Write/Execute) à l'application Azure à utiliser par le Job, pour accéder à Azure Data Lake Storage. Pour plus de détails concernant l'attribution des autorisations, consultez la documentation Azure : Assign the Azure AD application to the Azure Data Lake Storage account file or folder. Par exemple :

        Sans les autorisations appropriées, les dépendances de votre Job ne peuvent être transférées dans votre Azure Data Lake Storage.

      2. Dans la console Altus, identifiez le nom du groupe Data Lake Storage AAD Group Name utilisé par votre environnement Altus, dans la zone Instance Settings.

      3. Dans votre portail Azure, assignez les droits en lecture/écriture/exécution (Read/Write/Execute) à ce groupe AAD, à l'aide de la procédure expliquée dans la documentation Azure : Assign the Azure AD application to the Azure Data Lake Storage account file or folder.

        Sans les autorisations appropriées, les dépendances de votre Job ne peuvent être transférées dans votre Azure Data Lake Storage.

      4. Dans l'onglet Spark configuration, configurez la connexion à Azure Data Lake Storage.

        Azure (aperçu technique)

        • ADLS account FQDN :

          Saisissez l'adresse sans la partie du schéma du compte Azure Data Lake Storage à utiliser, par exemple, ychendls.azuredatalakestore.net.

          Ce compte doit déjà exister dans votre portail Azure.

        • Azure App ID et Azure App key :

          Dans les champs Client ID et Client key, saisissez respectivement l'ID et la clé d'authentification générés après enregistrement de l'application que le Job que vous développez utilise pour accéder à Azure Data Lake Storage.

          Cette application doit être celle à laquelle vous avez assigné des autorisations d'accès à Azure Data Lake Storage dans l'étape précédente.

        • Token endpoint :

          Dans le champ Token endpoint, copiez-collez l'endpoint du jeton OAuth 2.0 que vous pouvez obtenir à partir de la liste Endpoints dans la page App registrations de votre portail Azure.

      Le stockage Azure Data Lake Storage spécifié ici est utilisé pour stocker uniquement les dépendances de votre Job. Pour vous connecter au système Azure hébergeant vos données, utilisez un composant tAzureFSConfiguration dans votre Job.

  4. Cochez la case Wait for the Job to complete pour que votre Studio ou, si vous utilisez le JobServer Talend, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.

Résultats