Accéder au contenu principal Passer au contenu complémentaire

Définition des paramètres de connexion à AWS Qubole pour des Jobs Spark

Terminez la configuration de la connexion à Qubole dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Qubole est supporté uniquement dans le framework d'intégration de données traditionnel (le framework Standard) et dans les frameworks Spark.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Avant de commencer

  • Vous avez correctement configuré votre cluster Qubole pour AWS. Pour plus d'informations concernant cette procédure, consultez Getting Started with Qubole on AWS (en anglais) dans la documentation Qubole.
  • Assurez-vous que le compte Qubole à utiliser a le rôle IAM adéquat pour pouvoir lire/écrire dans ce bucket S3. Pour plus d'informations, contactez l'administrateur de votre système Qubole ou consultez Cross-account IAM Role for QDS (en anglais) dans la documentation Qubole.
  • Assurez-vous que le compte AWS à utiliser a les droits de lecture/d'écriture appropriés à ce bucket S3. Contactez l'administrateur·trice de votre système AWS pour vous en assurer.

Procédure

  1. Saisissez les informations simples de configuration :
    Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.
    Note InformationsRemarque :
    • Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
    • Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
    Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :
    • Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
    • Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
    Note InformationsImportant : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
    Note InformationsRemarque : Les Jobs créés en 7.3 utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
    Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates.
    Note InformationsRemarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.
  2. Saisissez les informations simples de connexion à Qubole :

    Connection configuration

    • Cliquez sur le bouton ... à côté du champ API Token pour saisir le jeton d'authentification généré pour le compte utilisateur·rice Qubole à utiliser. Pour plus d'informations concernant l'obtention de ce jeton, consultez Manage Qubole account dans la documentation Qubole.

      Ce jeton vous permet de spécifier le compte utilisateur·rice à utiliser pour accéder à Qubole. Votre Job utilise automatiquement les droits et autorisations attribués à ce compte utilisateur·rice dans Qubole.

    • Cochez la case Cluster label et saisissez le nom du cluster Qubole à utiliser. Si vous laissez cette case décochée, le cluster par défaut est utilisé.

      Si vous avez besoin de plus d'informations concernant votre cluster par défaut, contactez l'administrateur·trice de votre service Qubole. Vous pouvez également lire cet article de la documentation Qubole pour trouver plus de détails concernant la configuration d'un cluster Qubole par défaut.

    • Cochez la case Change API endpoint et sélectionnez la région à utiliser. Lorsque cette case est décochée, la région par défaut est utilisée.

      Pour plus d'informations concernant les Endpoints Qubole supportés par QDS-on-AWS, consultez Supported Qubole Endpoints on Different Cloud Providers (en anglais).

  3. Configurez la connexion au système de fichiers S3 à utiliser pour stocker temporairement les dépendances de votre Job, afin que votre cluster Qubole accède à ces dépendances.
    Cette configuration est utilisée uniquement pour les dépendances de votre Job. Utilisez un tS3Configuration dans votre Job pour écrire vos données métier dans le système S3 avec Qubole. Sans tS3Configuration, ces données métier sont écrites dans le système Qubole HDFS et détruites une fois que vous arrêtez votre cluster.
    • Access key et Secret key : renseignez les informations d'authentification requises pour vous connecter au bucket Amazon S3 à utiliser.

      Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

    • Bucket name (Nom du bucket) : saisissez le nom du bucket à utiliser pour stocker les dépendances de votre Job. Ce bucket doit déjà exister sur S3.
    • Temporary resource folder (Dossier de ressource temporaire) : saisissez le répertoire dans lequel vous voulez stocker les dépendances de votre Job. Par exemple, saisissez temp_resources pour écrire les dépendances dans le dossier /temp_resources dans le bucket.

      Si ce dossier existe déjà au moment de l'exécution, son contenu est écrasé par les dépendances à venir. Sinon, ce dossier est créé automatiquement.

    • Region : spécifiez la zone géographique AWS en sélectionnant le nom d'une zone géographique dans la liste. Pour plus d'informations concernant les zones géographiques AWS, consultez Régions et points de terminaison AWS .

Résultats

  • Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :
  • Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.

    Pour plus d'informations concernant l'opération relative aux checkpoints de Spark, consultez la documentation Spark officielle.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !