Exécution d'une préparation sur Google Data Flow
Vous pouvez choisir d'utiliser Google Cloud Dataflow en tant que moteur d'exécution Big Data pour l'export de vos préparations.
Pour configurer ce nouveau type d'exécution au lieu de celui par défaut, vous devez configurer certains paramètres de Streams Runner et Spark Job Server.
Avant de commencer
- Vous possédez un compte entreprise Google Cloud et vous avez créé un projet Google Cloud.
- vous avez installé Talend Data Preparation.
- Vous avez installé Streams Runner et Spark Job Server sur des machines Linux.
- Vous avez créé un compte de service sur Google Cloud et téléchargé le fichier .json contenant les identifiants de ce compte de service. Ce fichier doit être stocké sur la machine où a été installé Spark Job Server. Le compte de service doit posséder les droits d'exécuter des jobs sur Google Cloud Dataflow et d'accéder aux buckets concernés par vos jobs sur Google Cloud Storage. Il s'agit des buckets d'entrée, de sortie, et du bucket configuré comme tempLocation.
Procédure
Résultats
Lorsque vous exporterez une préparation, selon la source et la cible de vos données, c'est le moteur d'exécution Google Cloud Dataflow qui sera utilisé au lieu du moteur d'exécution Big Data classique. Pour plus d'informations concernant le type de moteur d'exécution utilisé selon la source de vos données et leur cible, consultez Matrice des options d'export et d'exécution (uniquement en anglais).
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !