Ces propriétés sont utilisées pour configurer le tGoogleDataprocManage s'exécutant dans le framework de Jobs Standard.
Le composant tGoogleDataprocManage Standard appartient à la famille Cloud.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.
Basic settings
Identifiant du projet |
Saisissez l'ID de votre projet Google Cloud Platform. Si vous n'êtes pas certain de l'ID de votre projet, vérifiez dans la page Manage Resources de vos services Google Cloud Platform. |
Cluster identifier |
Saisissez l'ID de votre cluster Dataproc à utiliser. |
Provide Google Credentials in file |
Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur pour accéder à Google Cloud Platform, ne cochez pas cette case. Dans cette situation, cette machine est souvent votre machine locale. Lorsque vous lancez votre Job à partir d'une machine distante, comme un Jobserver, cochez cette case et dans le champ Path to Google Credentials file qui s'affiche, saisissez le répertoire dans lequel ce fichier JSON est stocké dans la machine du Jobserver. Pour plus d'informations concernant le fichier Google Credentials, contactez l'administrateur de votre Google Cloud Platform ou consultez Google Cloud Platform Auth Guide (en anglais). |
Action |
Sélectionnez l'action à effectuer sur votre cluster par le tGoogleDataprocManage.
|
Version |
Sélectionnez la version de l'image à utiliser pour créer un cluster Dataproc. |
Zone |
Sélectionnez la zone géographique dans laquelle sont utilisées les ressources de calcul et dans laquelle sont stockées et traitées les données. Une zone en termes Google Cloud est un emplacement isolé au sein d'une région, autre terme géographique employé par Google Cloud. Pour les régions de la plateforme Google Cloud, le Studio supporte uniquement la région Global. |
Instance configuration |
Saisissez les paramètres afin de déterminer combien d'instances master et worker doivent être utilisées par le cluster Dataproc à créer et configurez les performances de ces instances master et worker. |
Advanced settings
Wait for cluster ready |
Cochez cette case pour que le composant continue à s'exécuter jusqu'à ce que le cluster soit complètement configuré. Lorsque vous décochez cette case, ce composant arrête son exécution immédiatement après avoir envoyé la commande de création. |
Master disk size |
Saisissez un nombre, sans guillemet, afin de déterminer la taille du disque de chaque instance maître. |
Master local SSD |
Saisissez un nombre, sans guillemet, afin de déterminer le nombre d'appareils de stockage SSD (solid-state drive) locaux à ajouter à chaque instance maître. Selon Google, ces SSD locaux conviennent uniquement aux stockages temporaires, comme les caches, pour les espaces de traitement ou les données à faible valeur. Il est recommandé d'utiliser les options de stockage durable de Google pour stocker les données importantes. Pour plus d'informations concernant les options de stockage de Google, consultez Durable storage options (en anglais). |
Worker disk size |
Saisissez un nombre, sans guillemet, afin de déterminer la taille du disque de chaque instance worker. |
Worker local SSD |
Saisissez un nombre, sans guillemet, afin de déterminer le nombre d'appareils de stockage SSD (solid-state drive) locaux à ajouter à chaque instance worker. Selon Google, ces SSD locaux conviennent uniquement aux stockages temporaires, comme les caches, pour les espaces de traitement ou les données à faible valeur. Il est recommandé d'utiliser les options de stockage durable de Google pour stocker les données importantes. Pour plus d'informations concernant les options de stockage de Google, consultez Durable storage options (en anglais). |
Network ou Subnetwork |
Cochez une case ou l'autre pour utiliser respectivement un réseau ou sous-réseau Google Compute Engine pour le cluster à créer, pour activer les communications intra-cluster. Comme Google ne permet pas l'utilisation simultanée du réseau et du sous-réseau, cocher une case masque l'autre. Pour plus d'informations concernant la configuration du réseau pour les clusters Google Dataproc, consultez Dataproc Network (en anglais). |
Initialization action |
Dans cette table, sélectionnez les actions d'initialisation disponibles dans le bucket partagé dans Google Cloud Storage à exécuter sur tous les nœuds de votre cluster Dataproc, immédiatement après la configuration du cluster. Si vous devez utiliser des scripts d'initialisation personnalisés, chargez-les dans ce bucket Google partagé, afin que le tGoogleDataprocManage puisse les lire.
Pour plus d'informations concernant ce bucket partagé et les actions d'initialisation, consultez Initialization actions (en anglais). |
tStatCatcher Statistics |
Cochez cette case afin de collecter les données de log au niveau du composant. |
Utilisation
Règle d'utilisation |
Ce composant peut être utilisé en standalone dans un sous-Job. |