SUR CETTE PAGE

Accéder au contenu principal

CETTE PAGE VOUS A-T-ELLE AIDÉ ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Propriétés du tGoogleDataprocManage Standard

Ces propriétés sont utilisées pour configurer le tGoogleDataprocManage s'exécutant dans le framework de Jobs Standard.

Le composant tGoogleDataprocManage Standard appartient à la famille Cloud.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.

Basic settings

Project identifier	Saisissez l'ID de votre projet Google Cloud Platform. Si vous n'êtes pas certain de l'ID de votre projet, vérifiez dans la page Manage Resources de vos services Google Cloud Platform.
Cluster identifier	Saisissez l'ID de votre cluster Dataproc à utiliser.
Provide Google Credentials in file	Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur·rice pour accéder à Google Cloud Platform, ne cochez pas cette case. Dans cette situation, cette machine est souvent votre machine locale. Lorsque vous lancez votre Job à partir d'une machine distante, comme un Jobserver, cochez cette case et dans le champ Path to Google Credentials file qui s'affiche, saisissez le répertoire dans lequel ce fichier JSON est stocké dans la machine du Jobserver. Vous pouvez également cliquer sur le bouton [...] puis, dans la boîte de dialogue qui s'ouvre, parcourir le fichier JSON. Pour plus d'informations concernant le fichier Google Credentials, contactez l'administrateur·trice de votre Google Cloud Platform ou consultez Google Cloud Platform Auth Guide.
Action	Sélectionnez l'action à effectuer sur votre cluster par le tGoogleDataprocManage. `Start` pour créer un cluster, `Stop` pour supprimer un cluster.
Version	Sélectionnez la version de l'image à utiliser pour créer un cluster Dataproc.
Region	Dans cette liste déroulante, sélectionnez la région Google Cloud à utiliser.
Zone	Sélectionnez la zone géographique dans laquelle sont utilisées les ressources de calcul et dans laquelle sont stockées et traitées les données. Les zones disponibles dépendent de la région sélectionnée dans la liste déroulante Regional. Une zone en termes Google Cloud est un emplacement isolé au sein d'une région, autre terme géographique employé par Google Cloud.
Instance configuration	Saisissez les paramètres afin de déterminer combien d'instances master et worker doivent être utilisées par le cluster Dataproc à créer et configurez les performances de ces instances master et worker.

Paramètres avancés

Wait for cluster ready	Cochez cette case pour que le composant continue à s'exécuter jusqu'à ce que le cluster soit complètement configuré. Lorsque vous décochez cette case, ce composant arrête son exécution immédiatement après avoir envoyé la commande de création.
Master disk size	Saisissez un nombre, sans guillemet, afin de déterminer la taille du disque de chaque instance maître.
Master local SSD	Saisissez un nombre, sans guillemet, afin de déterminer le nombre d'appareils de stockage SSD (solid-state drive) locaux à ajouter à chaque instance maître. Selon Google, ces SSD locaux conviennent uniquement aux stockages temporaires, comme les caches, pour les espaces de traitement ou les données à faible valeur. Il est recommandé d'utiliser les options de stockage durable de Google pour stocker les données importantes. Pour plus d'informations concernant les options de stockage de Google, consultez Durable storage options.
Worker disk size	Saisissez un nombre, sans guillemet, afin de déterminer la taille du disque de chaque instance worker.
Worker local SSD	Saisissez un nombre, sans guillemet, afin de déterminer le nombre d'appareils de stockage SSD (solid-state drive) locaux à ajouter à chaque instance worker. Selon Google, ces SSD locaux conviennent uniquement aux stockages temporaires, comme les caches, pour les espaces de traitement ou les données à faible valeur. Il est recommandé d'utiliser les options de stockage durable de Google pour stocker les données importantes. Pour plus d'informations concernant les options de stockage de Google, consultez Durable storage options.
Network ou Subnetwork	Cochez une case ou l'autre pour utiliser respectivement un réseau ou sous-réseau Google Compute Engine pour le cluster à créer, pour activer les communications intra-cluster. Comme Google ne permet pas l'utilisation simultanée du réseau et du sous-réseau, cocher une case masque l'autre. Pour plus d'informations concernant la configuration du réseau pour les clusters Google Dataproc, consultez Dataproc Network.
Internal IP only	Cochez cette case pour configurer toutes les instances du cluster pour n'avoir que des adresses IP internes. Le sous-réseau du cluster doit avoir un accès privé à Google activé pour permettre aux nœuds du cluster d'accéder aux API et aux services Google depuis des IP internes. Pour plus d'informations consultez Configuration du réseau du cluster Dataproc.
Initialization action	Dans cette table, sélectionnez les actions d'initialisation disponibles dans le bucket partagé dans Google Cloud Storage à exécuter sur tous les nœuds de votre cluster Dataproc, immédiatement après la configuration du cluster. Si vous devez utiliser des scripts d'initialisation personnalisés, chargez-les dans ce bucket Google partagé, afin que le tGoogleDataprocManage puisse les lire. Dans la colonne Executable file, saisissez l'URI Google Cloud Storage pour les scripts à utiliser, par exemple gs://dataproc-initialization-actions/MyScript. Dans la colonne Executable timeout, saisissez entre guillemets doubles la période de temps déterminant la durée de l'exécution. Si l'exécutable n'est pas terminé à la fin de ce délai, un message d'erreur explicatif est retourné. La valeur est une chaîne de caractères contenant jusqu'à neuf chiffres après la virgule, par exemple "3.5s" pour 3,5 secondes. Pour plus d'informations concernant ce bucket partagé et les actions d'initialisation, consultez Initialization actions.
tStatCatcher Statistics	Cochez cette case afin de collecter les données de log au niveau du composant.

Utilisation

Règle d'utilisation	Ce composant peut être utilisé en standalone dans un sous-Job.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici