Configuration des paramètres de connexion à Dataproc - 6.4

Google Dataproc distribution

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Distributions Hadoop > Google Dataproc
EnrichPlatform
Studio Talend

Terminez la configuration de la connexion Google Dataproc dans l'onglet Spark configuration de la vue Run de votre Job. Cette configuration fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn client est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à Talend Data Fabric ou à un produit Big Data de Talend, et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Procédure

  1. Saisissez les informations simples de connexion à Dataproc :

    Project identifier

    Saisissez l'ID de votre projet Google Cloud Platform.

    Si vous n'êtes pas certain de l'ID de votre projet, vérifiez dans la page Manage Resources de vos services Google Cloud Platform.

    Cluster identifier

    Saisissez l'ID de votre cluster Dataproc à utiliser.

    Region

    Saisissez les régions dans lesquelles sont utilisées les ressources de calcul et dans lesquelles sont stockées et traitées les données. Si vous n'avez pas besoin de spécifier une région en particulier, laissez la valeur par défaut global.

    Pour plus d'informations relatives aux régions disponibles et aux zones de chaque groupe de région, consultez Regions and Zones (en anglais).

    Google Storage staging bucket

    Comme un Job Talend nécessite ses fichiers .jar dépendants pour être exécuté, spécifiez le répertoire Google Storage dans lequel ces fichiers .jar sont transférés afin que votre Job accède à ces fichiers lors de l'exécution.

    Le répertoire à saisir doit se terminer par une barre oblique (/). Si le répertoire n'existe pas, un répertoire est créé à la volée mais le bucket à utiliser doit déjà exister.

  2. Saisissez les informations d'authentification à votre cluster Google Dataproc :

    Provide Google Credentials in file

    Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur pour accéder à Google Cloud Platform, ne cochez pas cette case. Dans cette situation, cette machine est souvent votre machine locale.

    Lorsque vous lancez votre Job à partir d'une machine distante, comme un Jobserver, cochez cette case et dans le champ Path to Google Credentials file qui s'affiche, saisissez le répertoire dans lequel ce fichier JSON est stocké dans la machine du Jobserver.

    Pour plus d'informations concernant le fichier Google Credentials, contactez l'administrateur de votre Google Cloud Platform ou consultez Google Cloud Platform Auth Guide (en anglais).

  3. En mode Yarn client, la liste Property type s'affiche et vous permet de sélectionner une connexion à Hadoop établie depuis le Repository, si vous avez créé cette connexion dans le Repository. Le Studio réutilise l'ensemble des informations de connexion pour ce Job.
  4. Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke, dans le système local, les fichiers temporaires comme les fichiers .jar à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.

Résultats

Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :