Configuration des paramètres de connexion à Dataproc

Terminez la configuration de la connexion Google Dataproc dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn client est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Procédure

Saisissez les informations simples de connexion à Dataproc :

Use local timezone	Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Note InformationsRemarque : Si vous décochez cette case, Spark utilise le fuseau horaire UTC. Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components	Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances. Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité. Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD. Note InformationsImportant : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
Use timestamp for dataset components	Cochez cette case pour utiliser java.sql.Timestamp pour les dates. Note InformationsRemarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.
Project ID	Saisissez l'ID de votre projet Google Cloud Platform. Si vous n'êtes pas certain de l'ID de votre projet, vérifiez dans la page Manage Resources de vos services Google Cloud Platform.
Cluster ID	Saisissez l'ID de votre cluster Dataproc à utiliser.
Region	Dans cette liste déroulante, sélectionnez la région Google Cloud à utiliser.
Google Storage staging bucket	Comme un Job Talend nécessite ses fichiers .jar dépendants pour être exécuté, spécifiez le répertoire Google Storage dans lequel ces fichiers .jar sont transférés afin que votre Job accède à ces fichiers lors de l'exécution. Le répertoire à saisir doit se terminer par une barre oblique (/). Si le répertoire n'existe pas, un répertoire est créé à la volée mais le bucket à utiliser doit déjà exister.

Fournissez les informations d'identification à votre cluster Google Dataproc :

Provide Google Credentials in file	Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur·rice pour accéder à Google Cloud Platform, ne cochez pas cette case. Dans cette situation, cette machine est souvent votre machine locale. Lorsque vous lancez votre Job à partir d'une machine distante, comme un Talend JobServer, cochez cette case et dans le champ Path to Google Credentials file qui s'affiche, saisissez le répertoire dans lequel ce fichier JSON est stocké dans la machine du Talend JobServer. Vous pouvez également cliquer sur le bouton [...] puis, dans la boîte de dialogue qui s'ouvre, parcourir le fichier JSON. Pour plus d'informations concernant le fichier Google Credentials, contactez l'administrateur·trice de votre Google Cloud Platform ou consultez Google Cloud Platform Auth Guide.
Credential type	Sélectionnez le mode à utiliser pour vous authentifier à votre projet : Service Account : authentification à l'aide d'un compte Google associé à votre projet Google Cloud Platform. Lorsque vous sélectionnez ce mode, les paramètres à définir dans la vue Basic settings sont Path to Google Credentials file et, de manière facultative, Use P12 credentials file format et Service Account Id. OAuth2 Access Token : authentification de l'accès à l'aide des identifiants OAuth. Lorsque vous sélectionnez ce mode, le paramètre à définir dans la vue Basic settings est OAuth2 Access Token. Ce champ est disponible uniquement pour la distribution Dataproc 1.4.
OAuth2 Access Token	Saisissez un jeton d'accès. Note InformationsImportant : Le jeton n'est valide qu'une heure. Le Studio Talend n'effectue pas d'opération d'actualisation du jeton, vous devez donc en générer un nouveau une fois la limite d'une heure dépassée. Vous pouvez générer un jeton d'accès OAuth sur Google Developers OAuth Playground en allant dans BigQuery API v2 et en sélectionnant toutes les autorisations nécessaires. Ce champ est disponible uniquement lorsque vous sélectionnez OAuth2 Access Token dans la liste déroulante Credential type. Ce champ est disponible uniquement pour la distribution Dataproc 1.4.
Use P12 credentials file format	Lorsque le fichier Google Credentials à utiliser est au format P12, cochez cette case et, dans le champ Service Account Id qui s'affiche, saisissez l'ID du compte de service pour lequel le fichier Credentials P12 a été créé. Ce champ est disponible uniquement lorsque vous sélectionnez Service Account dans la liste déroulante Credential type. Ce champ est disponible uniquement pour la distribution Dataproc 1.4.

En mode Yarn client, la liste Property type s'affiche et vous permet de sélectionner une connexion à Hadoop établie depuis le Repository, si vous avez créé cette connexion dans le Repository. Le Studio Talend réutilise l'ensemble des informations de connexion pour ce Job.
Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio Talend stocke, dans le système local, les fichiers temporaires comme les fichiers JAR à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Ainis, si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.

Résultats

Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :
- Personnaliser Spark pour les Jobs Apache Spark Batch.
- Personnaliser Spark pour les Jobs Apache Spark Streaming.
Il est recommandé d'activer le système de log et de points de contrôle Spark, dans l'onglet de configuration de Spark, dans la vue Run de votre Job Spark, afin de permettre de déboguer et reprendre votre Job Spark lorsqu'une erreur survient :
- Logs et points de contrôle des activités de votre Job Spark Apache

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici