Définition des paramètres de connexion à AWS Qubole pour des Jobs Spark - 7.2

Qubole

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Serverless > Qubole
EnrichPlatform
Studio Talend

Terminez la configuration de la connexion à Qubole dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Qubole est supporté uniquement dans le framework d'intégration de données traditionnel (le framework Standard) et dans les frameworks Spark.

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Avant de commencer

  • Vous avez correctement configuré votre cluster Qubole pour AWS. Pour plus d'informations concernant cette procédure, consultez Getting Started with Qubole on AWS (en anglais) dans la documentation Qubole.
  • Assurez-vous que le compte Qubole à utiliser a le rôle IAM adéquat pour pouvoir lire/écrire dans ce bucket S3. Pour plus d'informations, contactez l'administrateur de votre système Qubole ou consultez Cross-account IAM Role for QDS (en anglais) dans la documentation Qubole.
  • Assurez-vous que le compte AWS à utiliser a les droits de lecture/d'écriture appropriés à ce bucket S3. Contactez l'administrateur de votre système AWS pour vous en assurer.

Procédure

  1. Saisissez les informations simples de connexion à Qubole :

    Configuration de connection

    • Cliquez sur le bouton ... à côté du champ API Token pour saisir le jeton d'authentification généré pour le compte utilisateur Qubole à utiliser. Pour plus d'informations concernant l'obtention de ce jeton, consultez Manage Qubole account dans la documentation Qubole.

      Ce jeton vous permet de spécifier le compte utilisateur à utiliser pour accéder à Qubole. Votre Job utilise automatiquement les droits et autorisations assignés à ce compte utilisateur dans Qubole.

    • Cochez la case Cluster label et saisisissez le nom du cluster Qubole à utiliser. Si vous laissez cette case décochée, le cluster par défaut est utilisé.

      Si vous avez besoin de plus d'informations concernant votre cluster par défaut, contactez l'administrateur de votre service Qubole. Vous pouvez également lire cet article de la documentation Qubole pour trouver plus de détails concernant la configuration d'un cluster Qubole par défaut.

    • Cochez la case Change API endpoint et sélectionnez la région à utiliser. Lorsque cette case est décochée, la région par défaut est utilisée.

      Pour plus d'informations concernant les Endpoints Qubole supportés par QDS-on-AWS, consultez Supported Qubole Endpoints on Different Cloud Providers (en anglais).

  2. Configurez la connexion au système de fichiers S3 à utiliser pour stocker temporairement les dépendances de votre Job, afin que votre cluster Qubole accède à ces dépendances.
    Cette configuration est utilisée uniquement pour les dépendances de votre Job. Utilisez un tS3Configuration dans votre Job pour écrire vos données métier dans le système S3 avec Qubole. Sans tS3Configuration, ces données métier sont écrites dans le système Qubole HDFS et détruites une fois que vous arrêtez votre cluster.
    • Access key et Secret key : renseignez les informations d'authentification requises pour vous connecter au bucket Amazon S3 à utiliser.

      Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

    • Bucket name : saisissez le nom du bucket à utiliser pour stocker les dépendances de votre Job. Ce bucket doit déjà exister sur S3.
    • Temporary resource folder : saisissez le répertoire dans lequel vous voulez stocker les dépendances de votre Job. Par exemple, saisissez temp_resources pour écrire les dépendances dans le dossier /temp_resources dans le bucket.

      Si ce dossier existe déjà au moment de l'exécution, son contenu est écrasé par les dépendances à venir. Sinon, ce dossier est créé automatiquement.

    • Region : spécifiez la zone géographique AWS en sélectionnant le nom d'une zone géographique dans la liste. Pour plus d'informations concernant les zones géographiques AWS, consultez Régions et points de terminaison AWS .

Résultats

  • Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :
    • pour les Jobs Spark Batch.

    • pour les Jobs Spark Streaming.

  • Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.

    Pour plus d'informations concernant les points de contrôle Spark, consultez http://spark.apache.org/docs/latest/streaming-programming-guide.html#checkpointing (en anglais).