Configuration des paramètres de connexion à Cloudera Altus (aperçu technique) - 6.5

Cloudera Altus

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Distributions Hadoop > Cloudera Altus
EnrichPlatform
Studio Talend

Terminez la configuration de la connexion à Altus dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn cluster est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Avant de commencer

L'interface en ligne de commande d'Altus du client Cloudera Altus doit être installée sur la machine sur laquelle est exécuté votre Job :

Procédure

  1. Dans l'onglet Spark configuration de la vue Run de votre Job, saisissez les informations de connexion à Cloudera Altus.

    Force Cloudera Altus credentials

    Cochez cette case pour fournir les identifiants d'authentification à votre Job.

    Décochez cette case, si vous souhaitez fournir les identifiants d'authentification séparément, par exemple en utilisant manuellement la commande altus configure dans votre terminal.

    Path to Cloudera Altus CLI

    Saisissez le chemin d'accès au client Cloudera Altus, installé et activé sur la machine sur laquelle est exécuté votre Job. En environnement de production, cette machine est généralement un Jobserver Talend.

  2. Configurez le cluster virtuel Cloudera à utiliser.

    Use an existing Cloudera Altus cluster

    Cochez cette case pour utiliser un cluster Cloudera Altus déjà existant dans votre service Cloud. Autrement, laissez la case décochée pour autoriser le Job à créer un cluster à la volée.

    Si cette case est cochée, seul le paramètre du nom du cluster est utile. Les autres paramètres pour la configuration du cluster sont masqués.

    Cluster name

    Saisissez le nom du cluster à utiliser.

    Environment

    Saisissez le nom de l'environnement Cloudera Altus à utiliser pour définir les ressources allouées au cluster.

    Si vous ne savez pas quel environnement sélectionner, contactez votre administrateur Cloudera Altus.

    Delete cluster after execution

    Cochez cette case si vous souhaitez supprimer le cluster après l'exécution de votre Job.

    Override with a JSON configuration

    Cochez cette case pour modifier manuellement le code JSON dans le champ Custom JSON affiché pour configurer le cluster.

    Instance type

    Sélectionnez le type d'instance pour les instances du cluster. Tous les nœuds déployés dans ce cluster utilisent le même type d'instance.

    Worker node

    Saisissez le nombre de nœuds workers à créer pour le cluster.

    Pour plus d'informations sur le nombre autorisé de nœuds workers, consultez la documentation de Cloudera Altus (en anglais).

    Cloudera Manager username et Cloudera Manager password

    Saisissez les informations d'authentification à votre service Cloudera Manager.

    SSH private key

    Naviguez ou saisissez le chemin d'accès à la clé privée SSH pour la charger et l'enregistrer dans la région spécifiée dans l'environnement Cloudera Altus.

    Le service Data Engineering de Cloudera Altus utilise cette clé privée pour accéder aux instances du cluster à utiliser et les configurer.

  3. Dans la liste Cloud provider, sélectionnez le service Cloud qui exécute votre cluster Cloudera Altus. Actuellement, seul Amazon Web Services est disponible.

    AWS

    • Access key et Secret key : renseignez les informations d'authentification requises pour vous connecter au bucket Amazon S3 à utiliser.

      Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

    • Spécifiez la zone géographique AWS en sélectionnant le nom d'une zone géographique dans la liste ou en saisissant le nom de la zone entre guillemets doubles ("us-east-1" par exemple) dans la liste. Pour plus d'informations sur les zones géographiques AWS, consultez Régions et points de terminaison AWS .

    • S3 bucket name : saisissez le nom du bucket à utiliser pour stocker les dépendances de votre Job. Ce bucket doit déjà exister.

    • S3 storage path : saisissez le chemin d'accès au répertoire dans lequel vous souhaitez stocker les dépendances de votre Job dans ce bucket, par exemple, altus/jobjar. Ce répertoire est créé s'il n'existe pas lors de l'exécution.

    Le stockage Amazon S3 spécifié ici est utilisé pour stocker les dépendances de votre Job uniquement. Pour vous connecter au système S3 hébergeant vos données, utilisez un composant tS3Configuration dans votre Job.

Résultats

Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :