Exécution d'une préparation sur Google Data Flow

Vous pouvez choisir d'utiliser Google Cloud Dataflow en tant que moteur d'exécution Big Data pour l'export de vos préparations.

Avertissement : Cette fonctionnalité est une version bêta. Aucun support n'est disponible pour cette dernière.

Pour configurer ce nouveau type d'exécution au lieu de celui par défaut, vous devez configurer certains paramètres de Streams Runner et Spark Job Server.

Avant de commencer

Vous possédez un compte entreprise Google Cloud et vous avez créé un projet Google Cloud.
vous avez installé Talend Data Preparation.
Vous avez installé Streams Runner et Spark Job Server sur des machines Linux.
Vous avez créé un compte de service sur Google Cloud et téléchargé le fichier .json contenant les identifiants de ce compte de service. Ce fichier doit être stocké sur la machine où a été installé Spark Job Server. Le compte de service doit posséder les droits d'exécuter des jobs sur Google Cloud Dataflow et d'accéder aux buckets concernés par vos jobs sur Google Cloud Storage. Il s'agit des buckets d'entrée, de sortie, et du bucket configuré comme tempLocation.

Procédure

Ouvrez le fichier <Streams_Runner_installation_path>/conf/application.conf.
Pour choisir Google Dataflow en tant que type de runner, vous pouvez au choix :
- Saisir DataflowRunner comme valeur du paramètre runner.type.
- Utiliser la variable d'environnement $(?RUNNER_TYPE) en exécutant la commande suivante : export RUNNER_TYPE=DataflowRunner
Configurez les propriétés du runner en ajoutant les deux paramètres obligatoires et leurs valeurs au fichier de configuration. Il s'agit de project et tempLocation.

En plus de ces deux paramètres, vous pouvez compléter la configuration du runner avec les paramètres de votre choix. Pour une liste complète des différents paramètres d'exécution disponibles, consultez la documentation Google (uniquement en anglais).
Pour configurer Spark Job Server, ajoutez la variable d'environnement GOOGLE_APPLICATION_CREDENTIALS en exécutant la commande suivante : export GOOGLE_APPLICATION_CREDENTIALS=<path_to_service_account_file>

La variable doit pointer vers le fichier .json qui contient les identifiants du compte de service Google Cloud. Ce fichier .json doit se trouver sur la machine où est installé Spark Job Server.
Redémarrez les services.

Résultats

Lorsque vous exporterez une préparation, selon la source et la cible de vos données, c'est le moteur d'exécution Google Cloud Dataflow qui sera utilisé au lieu du moteur d'exécution Big Data classique. Pour plus d'informations concernant le type de moteur d'exécution utilisé selon la source de vos données et leur cible, consultez Matrice des options d'export et d'exécution (uniquement en anglais).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici