Définition des paramètres de connexion à AWS Qubole pour des Jobs Spark - 7.3

Qubole

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Création de Jobs > Serverless > Qubole

Terminez la configuration de la connexion à Qubole dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Qubole est supporté uniquement dans le framework d'intégration de données traditionnel (le framework Standard) et dans les frameworks Spark.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data et ne sont pas applicables aux utilisateurs et utilisatrices de Talend Open Studio for Big Data.

Avant de commencer

  • Vous avez correctement configuré votre cluster Qubole pour AWS. Pour plus d'informations concernant cette procédure, consultez Getting Started with Qubole on AWS (en anglais) dans la documentation Qubole.
  • Assurez-vous que le compte Qubole à utiliser a le rôle IAM adéquat pour pouvoir lire/écrire dans ce bucket S3. Pour plus d'informations, contactez l'administrateur de votre système Qubole ou consultez Cross-account IAM Role for QDS (en anglais) dans la documentation Qubole.
  • Assurez-vous que le compte AWS à utiliser a les droits de lecture/d'écriture appropriés à ce bucket S3. Contactez l'administrateur de votre système AWS pour vous en assurer.

Procédure

  1. Saisissez les informations simples de connexion à Qubole :

    Configuration de la connexion

    • Cliquez sur le bouton ... à côté du champ API Token pour saisir le jeton d'authentification généré pour le compte utilisateur·rice Qubole à utiliser. Pour plus d'informations concernant l'obtention de ce jeton, consultez Manage Qubole account dans la documentation Qubole.

      Ce jeton vous permet de spécifier le compte utilisateur·rice à utiliser pour accéder à Qubole. Votre Job utilise automatiquement les droits et autorisations attribués à ce compte utilisateur·rice dans Qubole.

    • Cochez la case Cluster label et saisissez le nom du cluster Qubole à utiliser. Si vous laissez cette case décochée, le cluster par défaut est utilisé.

      Si vous avez besoin de plus d'informations concernant votre cluster par défaut, contactez l'administrateur de votre service Qubole. Vous pouvez également lire cet article de la documentation Qubole pour trouver plus de détails concernant la configuration d'un cluster Qubole par défaut.

    • Cochez la case Change API endpoint et sélectionnez la région à utiliser. Lorsque cette case est décochée, la région par défaut est utilisée.

      Pour plus d'informations concernant les Endpoints Qubole supportés par QDS-on-AWS, consultez Supported Qubole Endpoints on Different Cloud Providers (en anglais).

  2. Configurez la connexion au système de fichiers S3 à utiliser pour stocker temporairement les dépendances de votre Job, afin que votre cluster Qubole accède à ces dépendances.
    Cette configuration est utilisée uniquement pour les dépendances de votre Job. Utilisez un tS3Configuration dans votre Job pour écrire vos données métier dans le système S3 avec Qubole. Sans tS3Configuration, ces données métier sont écrites dans le système Qubole HDFS et détruites une fois que vous arrêtez votre cluster.
    • Access key (Clé d'accès) et Secret key (Clé secrète) : renseignez les informations d'authentification requises pour vous connecter au bucket Amazon S3 à utiliser.

      Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

    • Bucket name (Nom du bucket) : saisissez le nom du bucket à utiliser pour stocker les dépendances de votre Job. Ce bucket doit déjà exister sur S3.
    • Temporary resource folder (Dossier de ressource temporaire) : saisissez le répertoire dans lequel vous voulez stocker les dépendances de votre Job. Par exemple, saisissez temp_resources pour écrire les dépendances dans le dossier /temp_resources dans le bucket.

      Si ce dossier existe déjà au moment de l'exécution, son contenu est écrasé par les dépendances à venir. Sinon, ce dossier est créé automatiquement.

    • Region : spécifiez la zone géographique AWS en sélectionnant le nom d'une zone géographique dans la liste. Pour plus d'informations concernant les zones géographiques AWS, consultez Régions et points de terminaison AWS .

Résultats