Configurer les paramètres de connexion à Cloudera Altus - Cloud - 8.0

Cloudera Altus

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Distributions Hadoop > Cloudera Altus
Last publication date
2024-02-21

Terminez la configuration de la connexion à Altus dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn cluster est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Avant de commencer

Prérequis :

L'interface en ligne de commande d'Altus du client Cloudera Altus doit être installée sur la machine sur laquelle est exécuté votre Job :

Procédure

  1. Dans l'onglet Spark configuration de la vue Run de votre Job, saisissez les informations de connexion à Cloudera Altus.
    Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.
    Remarque :
    • Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
    • Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
    Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :
    • Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
    • Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.

    Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD.

    Important : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
    Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates.
    Remarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.

    Force Cloudera Altus credentials

    Cochez cette case pour fournir les identifiants d'authentification à votre Job.

    Décochez cette case, si vous souhaitez fournir les identifiants d'authentification séparément, par exemple en utilisant manuellement la commande altus configure dans votre terminal.

    Path to Cloudera Altus CLI

    Saisissez le chemin d'accès au client Cloudera Altus, installé et activé sur la machine sur laquelle est exécuté votre Job. En environnement de production, cette machine est généralement un Talend JobServer.

  2. Configurez le cluster virtuel Cloudera à utiliser.

    Use an existing Cloudera Altus cluster

    Cochez cette case pour utiliser un cluster Cloudera Altus déjà existant dans votre service Cloud. Autrement, laissez la case décochée pour autoriser le Job à créer un cluster à la volée.

    Si cette case est cochée, seul le paramètre du nom du cluster est utile. Les autres paramètres pour la configuration du cluster sont masqués.

    Cluster name

    Saisissez le nom du cluster à utiliser.

    Environment

    Saisissez le nom de l'environnement Cloudera Altus à utiliser pour définir les ressources allouées au cluster.

    Si vous ne savez pas quel environnement sélectionner, contactez votre administrateur Cloudera Altus.

    Delete cluster after execution

    Cochez cette case si vous souhaitez supprimer le cluster après l'exécution de votre Job.

    Override with a JSON configuration

    Cochez cette case pour modifier manuellement le code JSON dans le champ Custom JSON affiché pour configurer le cluster.

    Instance type

    Sélectionnez le type d'instance pour les instances du cluster. Tous les nœuds déployés dans ce cluster utilisent le même type d'instance.

    Worker node

    Saisissez le nombre de nœuds workers à créer pour le cluster.

    Pour plus d'informations concernant le nombre autorisé de nœuds workers, consultez la documentation de Cloudera Altus (en anglais).

    Cloudera Manager username et Cloudera Manager password

    Saisissez les informations d'authentification à votre service Cloudera Manager.

    SSH private key

    Naviguez ou saisissez le chemin d'accès à la clé privée SSH pour la charger et l'enregistrer dans la région spécifiée dans l'environnement Cloudera Altus.

    Le service Data Engineering de Cloudera Altus utilise cette clé privée pour accéder aux instances du cluster à utiliser et les configurer.

    Custom bootstrap script

    Si vous souhaitez créer un cluster avec un script de bootstrapping que vous fournissez, parcourez votre système ou saisissez le chemin d'accès à ce script dans le champ Custom Bootstrap script.

    Pour un exemple de script Altus de bootstrapping, consultez Install a custom Python environment when creating a cluster (en anglais) dans la documentation Cloudera.

  3. Dans la liste Cloud provider, sélectionnez le service Cloud qui exécute votre cluster Cloudera Altus.
    • Si votre fournisseur de Cloud est AWS, sélectionnez AWS et définissez le répertoire Amazon S3 dans lequel vous stockez les dépendances de votre Job.

      AWS

      • Access key et Secret key : renseignez les informations d'authentification requises pour vous connecter au bucket Amazon S3 à utiliser.

        Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

      • Spécifiez la zone géographique AWS en sélectionnant le nom d'une zone géographique dans la liste ou en saisissant le nom de la zone entre guillemets doubles ("us-east-1" par exemple) dans la liste. Pour plus d'informations concernant les zones géographiques AWS, consultez Régions et points de terminaison AWS .

      • S3 bucket name (Nom du bucket S3) : saisissez le nom du bucket à utiliser pour stocker les dépendances de votre Job. Ce bucket doit déjà exister.

      • S3 storage path (Chemin d'accès au S3) : saisissez le chemin d'accès au répertoire dans lequel vous souhaitez stocker les dépendances de votre Job dans ce bucket, par exemple, altus/jobjar. Ce répertoire est créé s'il n'existe pas lors de l'exécution.

      Le stockage Amazon S3 spécifié ici est utilisé pour stocker les dépendances de votre Job uniquement. Pour vous connecter au système S3 hébergeant vos données, utilisez un composant tS3Configuration dans votre Job.

    • Si votre fournisseur de Cloud est Azure, sélectionnez Azure pour stocker les dépendances de votre Job dans Azure Data Lake Storage.

      1. Dans le portail Azure, assignez les autorisations en lecture/écriture/exécution (Read/Write/Execute) à l'application Azure à utiliser par le Job, pour accéder à Azure Data Lake Storage. Pour plus de détails concernant l'attribution des autorisations, consultez la documentation Azure : Assign the Azure AD application to the Azure Data Lake Storage account file or folder. Par exemple :

        Sans les autorisations appropriées, les dépendances de votre Job ne peuvent être transférées dans votre Azure Data Lake Storage.

      2. Dans la console Altus, identifiez le nom du groupe Data Lake Storage AAD Group Name utilisé par votre environnement Altus, dans la zone Instance Settings.

      3. Dans votre portail Azure, assignez les droits en lecture/écriture/exécution (Read/Write/Execute) à ce groupe AAD, à l'aide de la procédure expliquée dans la documentation Azure : Assign the Azure AD application to the Azure Data Lake Storage account file or folder.

        Sans les autorisations appropriées, les dépendances de votre Job ne peuvent être transférées dans votre Azure Data Lake Storage.

      4. Dans l'onglet Spark configuration, configurez la connexion à Azure Data Lake Storage.

        Azure (aperçu technique)

        • ADLS account FQDN :

          Saisissez l'adresse sans la partie du schéma du compte Azure Data Lake Storage à utiliser, par exemple, ychendls.azuredatalakestore.net.

          Ce compte doit déjà exister dans votre portail Azure.

        • Azure App ID et Azure App key :

          Dans les champs Client ID et Client key, saisissez respectivement l'ID et la clé d'authentification générés après enregistrement de l'application que le Job que vous développez utilise pour accéder à Azure Data Lake Storage.

          Cette application doit être celle à laquelle vous avez assigné des autorisations d'accès à Azure Data Lake Storage dans l'étape précédente.

        • Token endpoint :

          Dans le champ Token endpoint, copiez-collez l'endpoint du jeton OAuth 2.0 que vous pouvez obtenir à partir de la liste Endpoints dans la page App registrations de votre portail Azure.

      Le stockage Azure Data Lake Storage spécifié ici est utilisé pour stocker uniquement les dépendances de votre Job. Pour vous connecter au système Azure hébergeant vos données, utilisez un composant tAzureFSConfiguration dans votre Job.

  4. Cochez la case Wait for the Job to complete pour que votre Studio Talend ou, si vous utilisez le Talend JobServer, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.

Résultats