Scenario: Préparer des données extraites d'une base de données dans un Job Talend - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Le composant tDataprepRun vous permet de réutiliser une préparation existante créée dans Talend Data Preparation, directement dans un Job d'intégration de données. En d'autres termes, vous pouvez opérationnaliser le processus d'application d'une préparation à des fichiers d'entrée ayant le même modèle.

Le scénario suivant décrit un Job simple qui :

  • récupère un tableau contenant des informations relatives a des employés, depuis une base de données MySQL,

  • applique une préparation existante sur ces données,

  • génère le résultat de cette préparation sous forme de fichier Excel.

Cela présuppose qu'une préparation ait été précédemment créée, sur un jeu de données ayant le même schéma que vos données d'entrée dans le Job. Dans ce cas, la préparation existante est nommée datapreprun_scenario. Cette préparation assez simple met les noms des employés en majuscule, et filtre les entrées pour ne garder que les salaires supérieurs à 1500$.

Ajouter et relier les composants

  1. Dans l'espace de modélisation graphique, ajoutez les composants suivants : tMysqlInput, tDataprepRun and tFileOutputExcel.

  2. Reliez les trois composants à l'aide de liens Row > Main.

Configurer les composants

Récupérer les données depuis la base de données

  1. Dans l'espace de modélisation graphique, sélectionnez le composant tMysqlInput et cliquez sur son onglet Component afin de configurer ses paramètres simples.

  2. Dans la liste Property Type sélectionnez Built-in afin de renseigner manuellement les informations de connexion à la base de données.

  3. Dans la liste DB Version sélectionnez la version de MySQL que vous utilisez, MySQL 5 dans cet exemple.

  4. Dans les champs Host, Port, Database, Username et Password, saisissez les informations de connexion à MySQL et les informations d'authentification à la base de données, entre guillemets doubles.

  5. Dans le champ Table Name, saisissez le nom de la table à lire, entre guillemets doubles.

  6. Dans le champ Query, saisissez entre guillemets doubles votre requête sur la base de données. Dans cet exemple, la requête est select * from employees afin de récupérer toutes les informations de la table employees, dans la base de données test.

  7. Cliquez sur Guess schema afin de récupérer automatiquement le schéma de la table de base de données ou saisissez manuellement le schéma en cliquant sur le bouton [...] à côté du champ Edit schema.

    Vérifiez que le schéma du composant tMysqlInput correspond au schéma attendu par le composant tDataprepRun. En d'autres termes, le schéma d'entrée doit être le même que celui du jeu de données sur lequel la préparation a d'abord été créée.

Accéder à la préparation depuis Talend Data Preparation

  1. Dans l'espace de modélisation graphique, sélectionnez le composant tDataprepRun et cliquez sur son onglet Component pour configurer ses paramètres simples.

  2. Dans le champ URL, saisissez l'URL de l'application Web Talend Data Preparation, entre guillemets doubles. Le port 9999 est le port par défaut pour Talend Data Preparation.

  3. Dans les champs Username et Password saisissez vos informations de connexion à Talend Data Preparation, entre guillemets doubles.

  4. Cliquez sur le bouton Choose an existing preparation pour afficher une liste des préparations disponibles dans Talend Data Preparation, et choisissez datapreprun_scenario.

    Ce scénario part du principe qu'une préparation avec un schéma compatible a été créée au préalable.

  5. Cliquez sur le bouton Fetch Schema afin de récupérer le schéma de la préparation, datapreprun_scenario dans cet exemple.

    Le schéma de sortie du composant tDataprepRun reflète à présent les modifications effectuées à chaque étape de la préparation. Le schéma prend en compte les colonnes ayant été ajoutées ou supprimées, par exemple.

Générer le résultat de la préparation sous forme de fichier Excel

  1. Dans l'espace de modélisation graphique, sélectionnez le composant tFileOutputExcel et cliquez sur son onglet Component pour définir ses paramètres simples.

  2. Dans le champ File Name saisissez l'emplacement auquel vous souhaitez enregistrer le résultat de la préparation.

  3. Cliquez sur le bouton Sync columns afin de récupérer le nouveau schéma, hérité du composant tDataprepRun.

Exécuter le Job

  1. Sauvegardez votre Job et appuyez sur F6 pour l'éxecuter.

  2. Vous pouvez maintenant ouvrir le fichier Excel contenant le résultat de la préparation appliquée aux données de la table MySQL.