Propriétés du tGoogleDataprocManage Standard - 7.3

Google Dataproc

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Stockages Cloud > Composants Google > Composants Google Dataproc
Gouvernance de données > Systèmes tiers > Stockages Cloud > Composants Google > Composants Google Dataproc
Qualité et préparation de données > Systèmes tiers > Stockages Cloud > Composants Google > Composants Google Dataproc
Last publication date
2024-02-22

Ces propriétés sont utilisées pour configurer le tGoogleDataprocManage s'exécutant dans le framework de Jobs Standard.

Le composant tGoogleDataprocManage Standard appartient à la famille Cloud.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.

Basic settings

Project identifier

Saisissez l'ID de votre projet Google Cloud Platform.

Si vous n'êtes pas certain de l'ID de votre projet, vérifiez dans la page Manage Resources de vos services Google Cloud Platform.

Cluster identifier

Saisissez l'ID de votre cluster Dataproc à utiliser.

Provide Google Credentials in file

Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur·rice pour accéder à Google Cloud Platform, ne cochez pas cette case. Dans cette situation, cette machine est souvent votre machine locale.

Lorsque vous lancez votre Job à partir d'une machine distante, comme un Jobserver, cochez cette case et dans le champ Path to Google Credentials file qui s'affiche, saisissez le répertoire dans lequel ce fichier JSON est stocké dans la machine du Jobserver. Vous pouvez également cliquer sur le bouton [...] puis, dans la boîte de dialogue qui s'ouvre, parcourir le fichier JSON.

Pour plus d'informations concernant le fichier Google Credentials, contactez l'administrateur·trice de votre Google Cloud Platform ou consultez Google Cloud Platform Auth Guide.

Action

Sélectionnez l'action à effectuer sur votre cluster par le tGoogleDataprocManage.
  • Start pour créer un cluster,

  • Stop pour supprimer un cluster.

Version

Sélectionnez la version de l'image à utiliser pour créer un cluster Dataproc.

Region

Dans cette liste déroulante, sélectionnez la région Google Cloud à utiliser.

Zone

Sélectionnez la zone géographique dans laquelle sont utilisées les ressources de calcul et dans laquelle sont stockées et traitées les données. Les zones disponibles dépendent de la région sélectionnée dans la liste déroulante Regional.

Une zone en termes Google Cloud est un emplacement isolé au sein d'une région, autre terme géographique employé par Google Cloud.

Instance configuration

Saisissez les paramètres afin de déterminer combien d'instances master et worker doivent être utilisées par le cluster Dataproc à créer et configurez les performances de ces instances master et worker.

Paramètres avancés

Wait for cluster ready

Cochez cette case pour que le composant continue à s'exécuter jusqu'à ce que le cluster soit complètement configuré.

Lorsque vous décochez cette case, ce composant arrête son exécution immédiatement après avoir envoyé la commande de création.

Master disk size

Saisissez un nombre, sans guillemet, afin de déterminer la taille du disque de chaque instance maître.

Master local SSD

Saisissez un nombre, sans guillemet, afin de déterminer le nombre d'appareils de stockage SSD (solid-state drive) locaux à ajouter à chaque instance maître.

Selon Google, ces SSD locaux conviennent uniquement aux stockages temporaires, comme les caches, pour les espaces de traitement ou les données à faible valeur. Il est recommandé d'utiliser les options de stockage durable de Google pour stocker les données importantes. Pour plus d'informations concernant les options de stockage de Google, consultez Durable storage options.

Worker disk size

Saisissez un nombre, sans guillemet, afin de déterminer la taille du disque de chaque instance worker.

Worker local SSD

Saisissez un nombre, sans guillemet, afin de déterminer le nombre d'appareils de stockage SSD (solid-state drive) locaux à ajouter à chaque instance worker.

Selon Google, ces SSD locaux conviennent uniquement aux stockages temporaires, comme les caches, pour les espaces de traitement ou les données à faible valeur. Il est recommandé d'utiliser les options de stockage durable de Google pour stocker les données importantes. Pour plus d'informations concernant les options de stockage de Google, consultez Durable storage options.

Network ou Subnetwork

Cochez une case ou l'autre pour utiliser respectivement un réseau ou sous-réseau Google Compute Engine pour le cluster à créer, pour activer les communications intra-cluster.

Comme Google ne permet pas l'utilisation simultanée du réseau et du sous-réseau, cocher une case masque l'autre.

Pour plus d'informations concernant la configuration du réseau pour les clusters Google Dataproc, consultez Dataproc Network.

Internal IP only

Cochez cette case pour configurer toutes les instances du cluster pour n'avoir que des adresses IP internes.

Le sous-réseau du cluster doit avoir un accès privé à Google activé pour permettre aux nœuds du cluster d'accéder aux API et aux services Google depuis des IP internes.

Pour plus d'informations consultez Configuration du réseau du cluster Dataproc.

Initialization action

Dans cette table, sélectionnez les actions d'initialisation disponibles dans le bucket partagé dans Google Cloud Storage à exécuter sur tous les nœuds de votre cluster Dataproc, immédiatement après la configuration du cluster.

Si vous devez utiliser des scripts d'initialisation personnalisés, chargez-les dans ce bucket Google partagé, afin que le tGoogleDataprocManage puisse les lire.

  • Dans la colonne Executable file, saisissez l'URI Google Cloud Storage pour les scripts à utiliser, par exemple gs://dataproc-initialization-actions/MyScript.

  • Dans la colonne Executable timeout, saisissez entre guillemets doubles la période de temps déterminant la durée de l'exécution. Si l'exécutable n'est pas terminé à la fin de ce délai, un message d'erreur explicatif est retourné. La valeur est une chaîne de caractères contenant jusqu'à neuf chiffres après la virgule, par exemple "3.5s" pour 3,5 secondes.

Pour plus d'informations concernant ce bucket partagé et les actions d'initialisation, consultez Initialization actions.

tStatCatcher Statistics

Cochez cette case afin de collecter les données de log au niveau du composant.

Utilisation

Règle d'utilisation

Ce composant peut être utilisé en standalone dans un sous-Job.