Configuration des paramètres de connexion à Dataproc - 7.3

Distribution Google Dataproc

Version
7.3
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Distributions Hadoop > Google Dataproc

Terminez la configuration de la connexion Google Dataproc dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn client est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data et ne sont pas applicables aux utilisateurs et utilisatrices de Talend Open Studio for Big Data.

Procédure

  1. Saisissez les informations simples de connexion à Dataproc :
    Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.
    Remarque :
    • Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
    • Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
    Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :
    • Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
    • Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
    Important : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
    Remarque : Les Jobs créés en 7.3 utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
    Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates.
    Remarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.

    Project identifier

    Saisissez l'ID de votre projet Google Cloud Platform.

    Si vous n'êtes pas certain de l'ID de votre projet, vérifiez dans la page Manage Resources de vos services Google Cloud Platform.

    Cluster identifier

    Saisissez l'ID de votre cluster Dataproc à utiliser.

    Region

    Dans cette liste déroulante, sélectionnez la région Google Cloud à utiliser.

    Google Storage staging bucket

    Comme un Job Talend nécessite ses fichiers Jar dépendants pour être exécuté, spécifiez le répertoire Google Storage dans lequel ces fichiers Jar sont transférés afin que votre Job accède à ces fichiers lors de l'exécution.

    Le répertoire à saisir doit se terminer par une barre oblique (/). Si le répertoire n'existe pas, un répertoire est créé à la volée mais le bucket à utiliser doit déjà exister.

  2. Fournissez les informations d'identification à votre cluster Google Dataproc :

    Provide Google Credentials in file

    Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur·rice pour accéder à Google Cloud Platform, ne cochez pas cette case. Dans cette situation, cette machine est souvent votre machine locale.

    Lorsque vous lancez votre Job à partir d'une machine distante, comme un Jobserver, cochez cette case et dans le champ Path to Google Credentials file qui s'affiche, saisissez le répertoire dans lequel ce fichier JSON est stocké dans la machine du Jobserver. Vous pouvez également cliquer sur le bouton [...] puis, dans la boîte de dialogue qui s'ouvre, parcourir le fichier JSON.

    Pour plus d'informations concernant le fichier Google Credentials, contactez l'administrateur de votre Google Cloud Platform ou consultez Google Cloud Platform Auth Guide.

    Credential type Sélectionnez le mode à utiliser pour vous authentifier à votre projet :
    • Service Account : authentification à l'aide d'un compte Google associé à votre projet Google Cloud Platform. Lorsque vous sélectionnez ce mode, les paramètres à définir dans la vue Basic settings sont Path to Google Credentials file et, de manière facultative, Use P12 credentials file format et Service Account Id.
    • OAuth2 Access Token : authentification de l'accès à l'aide des identifiants OAuth. Lorsque vous sélectionnez ce mode, le paramètre à définir dans la vue Basic settings est OAuth2 Access Token.

    Ce champ est disponible uniquement pour la distribution Dataproc 1.4.

    OAuth2 Access Token
    Saisissez un jeton d'accès.
    Important : Le jeton n'est valide qu'une heure. Le Studio Talend n'effectue pas d'opération d'actualisation du jeton, vous devez donc en générer un nouveau une fois la limite d'une heure dépassée.

    Vous pouvez générer un jeton d'accès OAuth sur Google Developers OAuth Playground en allant dans BigQuery API v2 et en sélectionnant toutes les autorisations nécessaires.

    Ce champ est disponible uniquement lorsque vous sélectionnez OAuth2 Access Token dans la liste déroulante Credential type.

    Ce champ est disponible uniquement pour la distribution Dataproc 1.4.

    Use P12 credentials file format

    Lorsque le fichier Google Credentials à utiliser est au format P12, cochez cette case et, dans le champ Service Account Id qui s'affiche, saisissez l'ID du compte de service pour lequel le fichier Credentials P12 a été créé.

    Ce champ est disponible uniquement lorsque vous sélectionnez Service Account dans la liste déroulante Credential type.

    Ce champ est disponible uniquement pour la distribution Dataproc 1.4.

  3. En mode Yarn client, la liste Property type s'affiche et vous permet de sélectionner une connexion à Hadoop établie depuis le Repository, si vous avez créé cette connexion dans le Repository. Le Studio réutilise l'ensemble des informations de connexion pour ce Job.
  4. Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke, dans le système local, les fichiers temporaires comme les fichiers .jar à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.

Résultats