Propriétés du tGoogleDataprocManage Standard - 7.1

Google Dataproc

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Stockages Cloud > Composants Google Dataproc
Gouvernance de données > Systèmes tiers > Stockages Cloud > Composants Google Dataproc
Qualité et préparation de données > Systèmes tiers > Stockages Cloud > Composants Google Dataproc
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tGoogleDataprocManage s'exécutant dans le framework de Jobs Standard.

Le composant tGoogleDataprocManage Standard appartient à la famille Cloud.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.

Basic settings

Identifiant du projet

Saisissez l'ID de votre projet Google Cloud Platform.

Si vous n'êtes pas certain de l'ID de votre projet, vérifiez dans la page Manage Resources de vos services Google Cloud Platform.

Cluster identifier

Saisissez l'ID de votre cluster Dataproc à utiliser.

Provide Google Credentials in file

Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur pour accéder à Google Cloud Platform, ne cochez pas cette case. Dans cette situation, cette machine est souvent votre machine locale.

Lorsque vous lancez votre Job à partir d'une machine distante, comme un Jobserver, cochez cette case et dans le champ Path to Google Credentials file qui s'affiche, saisissez le répertoire dans lequel ce fichier JSON est stocké dans la machine du Jobserver.

Pour plus d'informations concernant le fichier Google Credentials, contactez l'administrateur de votre Google Cloud Platform ou consultez Google Cloud Platform Auth Guide (en anglais).

Action

Sélectionnez l'action à effectuer sur votre cluster par le tGoogleDataprocManage.
  • Start pour créer un cluster,

  • Stop pour supprimer un cluster.

Version

Sélectionnez la version de l'image à utiliser pour créer un cluster Dataproc.

Zone

Sélectionnez la zone géographique dans laquelle sont utilisées les ressources de calcul et dans laquelle sont stockées et traitées les données.

Une zone en termes Google Cloud est un emplacement isolé au sein d'une région, autre terme géographique employé par Google Cloud. Pour les régions de la plateforme Google Cloud, le Studio supporte uniquement la région Global.

Instance configuration

Saisissez les paramètres afin de déterminer combien d'instances master et worker doivent être utilisées par le cluster Dataproc à créer et configurez les performances de ces instances master et worker.

Advanced settings

Wait for cluster ready

Cochez cette case pour que le composant continue à s'exécuter jusqu'à ce que le cluster soit complètement configuré.

Lorsque vous décochez cette case, ce composant arrête son exécution immédiatement après avoir envoyé la commande de création.

Master disk size

Saisissez un nombre, sans guillemet, afin de déterminer la taille du disque de chaque instance maître.

Master local SSD

Saisissez un nombre, sans guillemet, afin de déterminer le nombre d'appareils de stockage SSD (solid-state drive) locaux à ajouter à chaque instance maître.

Selon Google, ces SSD locaux conviennent uniquement aux stockages temporaires, comme les caches, pour les espaces de traitement ou les données à faible valeur. Il est recommandé d'utiliser les options de stockage durable de Google pour stocker les données importantes. Pour plus d'informations concernant les options de stockage de Google, consultez Durable storage options (en anglais).

Worker disk size

Saisissez un nombre, sans guillemet, afin de déterminer la taille du disque de chaque instance worker.

Worker local SSD

Saisissez un nombre, sans guillemet, afin de déterminer le nombre d'appareils de stockage SSD (solid-state drive) locaux à ajouter à chaque instance worker.

Selon Google, ces SSD locaux conviennent uniquement aux stockages temporaires, comme les caches, pour les espaces de traitement ou les données à faible valeur. Il est recommandé d'utiliser les options de stockage durable de Google pour stocker les données importantes. Pour plus d'informations concernant les options de stockage de Google, consultez Durable storage options (en anglais).

Network ou Subnetwork

Cochez une case ou l'autre pour utiliser respectivement un réseau ou sous-réseau Google Compute Engine pour le cluster à créer, pour activer les communications intra-cluster.

Comme Google ne permet pas l'utilisation simultanée du réseau et du sous-réseau, cocher une case masque l'autre.

Pour plus d'informations concernant la configuration du réseau pour les clusters Google Dataproc, consultez Dataproc Network (en anglais).

Initialization action

Dans cette table, sélectionnez les actions d'initialisation disponibles dans le bucket partagé dans Google Cloud Storage à exécuter sur tous les nœuds de votre cluster Dataproc, immédiatement après la configuration du cluster.

Si vous devez utiliser des scripts d'initialisation personnalisés, chargez-les dans ce bucket Google partagé, afin que le tGoogleDataprocManage puisse les lire.

  • Dans la colonne Executable file, saisissez l'URI Google Cloud Storage pour les scripts à utiliser, par exemple gs://dataproc-initialization-actions/MyScript.

  • Dans la colonne Executable timeout, saisissez entre guillemets doubles la période de temps déterminant la durée de l'exécution. Si l'exécutable n'est pas terminé à la fin de ce délai, un message d'erreur explicatif est retourné. La valeur est une chaîne de caractères contenant jusqu'à neuf chiffres après la virgule, par exemple "3.5s" pour 3,5 secondes.

Pour plus d'informations concernant ce bucket partagé et les actions d'initialisation, consultez Initialization actions (en anglais).

tStatCatcher Statistics

Cochez cette case afin de collecter les données de log au niveau du composant.

Utilisation

Règle d'utilisation

Ce composant peut être utilisé en standalone dans un sous-Job.