Exécution d'une préparation sur Google Data Flow

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Data Services Platform
Talend Big Data Platform
Talend ESB
Talend Data Management Platform
Talend Data Integration
Talend Data Fabric
Talend Big Data
Talend Real-Time Big Data Platform
Talend MDM Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez choisir d'utiliser Google Cloud Dataflow en tant que moteur d'exécution Big Data pour l'export de vos préparations.

Avertissement : Ceci est un aperçu technique, et aucun support n'est disponible pour cette fonctionnalité.

Pour configurer ce nouveau type d'exécution au lieu de celui par défaut, vous devez configurer certains paramètres de Streams Runner et Spark Job Server.

Avant de commencer

  1. Vous possédez un compte entreprise Google Cloud et vous avez créé un projet Google Cloud.
  2. Vous avez installé Talend Data Preparation.
  3. Vous avez installé Streams Runner et Spark Job Server sur des machines Linux.
  4. Vous avez créé un compte de service sur Google Cloud et téléchargé le fichier .json contenant les identifiants de ce compte de service. Ce fichier doit être stocké sur la machine où a été installé Spark Job Server. Le compte de service doit posséder les droits d'exécuter des jobs sur Google Cloud Dataflow et d'accéder aux buckets concernés par vos jobs sur Google Cloud Storage. Il s'agit des buckets d'entrée, de sortie, et du bucket configuré comme tempLocation.

Procédure

  1. Ouvrez le fichier <Streams_Runner_installation_path>/conf/application.conf.
  2. Pour choisir Google Dataflow en tant que type de runner, vous pouvez au choix:
    • Saisir DataflowRunner comme valeur du paramètre runner.type.
    • Utiliser la variable d'environnement $(?RUNNER_TYPE) en exécutant la commande suivante : export RUNNER_TYPE=DataflowRunner
  3. Configurez les propriétés du runner en ajoutant les deux paramètres obligatoires et leurs valeurs au fichier de configuration. Il s'agit de project et tempLocation.

    En plus de ces deux paramètres, vous pouvez compléter la configuration du runner avec les paramètres de votre choix. Pour une liste complète des différents paramètres d'exécution disponibles, consultez la documentation Google.

  4. Pour configurer Spark Job Server, ajoutez la variable d'environnement GOOGLE_APPLICATION_CREDENTIALS en exécutant la commande suivante : export GOOGLE_APPLICATION_CREDENTIALS=<path_to_service_account_file>

    La variable doit pointer vers le fichier .json qui contient les identifiants du compte de service Google Cloud. Ce fichier .json doit se trouver sur la machine où est installé Spark Job Server.

  5. Redémarrez les services.

Résultats

Lorsque vous exporterez une préparation, selon la source et la cible de vos données, c'est le moteur d'exécution Google Cloud Dataflow qui sera utilisé au lieu du moteur d'exécution Big Data classique. Pour plus d'information sur le type de moteur d'exécution utilisé selon la source de vos données et leur cible, consultez Matrice des options d'export et d'exécution.