Scénario : Filtrer et agréger des colonnes d'une table directement sur le SGBD - 6.3

Composants Talend Open Studio Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Le scénario suivant crée un Job ouvrant une connexion à une base de données MySQL et :

  • alimente une table de base de données avec les données source,

  • crée une table de sortie pour les données filtrées,

  • instancie en partie les schémas d'une table de base de données (pour filtrer les colonnes),

  • filtre deux colonnes dans la même table afin de ne garder que les données correspondant aux deux conditions de filtre,

  • collecte les données des colonnes filtrées, regroupées par valeur(s) spécifique(s) et écrit les données agrégées dans une table cible de base de données.

Ajouter et relier les composants

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : tMysqlConnection, tFixedFlowInput, tMysqlOutput, tCreateTable, tCombinedSQLInput, tCombinedSQLFilter, tCombinedSQLAggregate, tCombinedSQLOutput, tMysqlCommit, tMysqlInput et tLogRow.

  2. Reliez le composant tMysqlConnection au tFixedFlowInput à l'aide d'un lien Trigger > OnSubjobOk.

  3. Procédez de la même manière afin de relier le tFixedFlowInput au tCreateTable, le tCreateTable au tCombinedSQLInput, le tCombinedSQLInput au tMysqlCommit et le tMysqlCommit au tMysqlInput.

  4. Reliez le composant tFixedFlowInput au tMysqlOutput à l'aide d'un lien Row > Main.

  5. Reliez le composant tCombinedSQLInput au tCombinedSQLFilter à l'aide d'un lien Row > Combine.

  6. Procédez de la même manière afin de relier le tCombinedSQLFilter au tCombinedSQLAggregate et le tCombinedSQLAggregate au tCombinedSQLOutput.

  7. Reliez le composant tMysqlInput au tLogRow à l'aide d'un lien Row > Main.

Configurer les composants

Ouvrir une connection MySQL

  1. Lancez MySQL Workbench et démarrez une connexion locale sur le port 3306.

  2. Créez un nouveau schéma que vous nommerez test.

  3. De retour dans l'espace de modélisation graphique, double-cliquez sur le composant tMysqlConnection pour afficher sa vue Component et définir ses propriétés de base.

  4. Dans la vue Basic settings, configurez manuellement les informations de connexion à la base de données ou sélectionnez Repository dans la liste Property Type si votre connexion à la base de données a déjà été configurée et stockée sous le nœud Metadata de la vue Repository.

    Pour plus d'informations concernant le stockage des métadonnées dans le Repository, consultez le Guide utilisateur du Studio Talend.

Insérer les données dans la table source

  1. Dans l'espace de modélisation graphique, double-cliquez sur le composant tFixedFlowInput pour afficher sa vue Component et définir ses propriétés de base.

  2. Dans la vue Basic settings, saisissez 500 dans le champ Number of rows.

  3. Dans ce scénario, la table de la base de données source contient sept colonnes : id, first_name, last_name, city, state, date_of_birth, ainsi que salary.

    Cliquez sur le bouton [...] à côté du champ Edit schema pour définir la structure suivante pour les données.

  4. Cliquez sur l'icône représentant une disquette afin de sauvegarder le schéma pour une utilisation ultérieure.

  5. Dans la fenêtre Select folder, sélectionnez default et cliquez sur OK.

  6. Saisissez le nom que vous avez choisi pour votre schéma et cliquez sur Finish.

  7. Cliquez sur OK.

  8. La première colonne de la table Values reflète automatiquement la structure de données que vous avez précédemment configurée.

  9. Dans la table Values, saisissez une valeur pour chaque colonne.

  10. Dans l'espace de modélisation graphique, double-cliquez sur le composant tMysqlOutput pour afficher sa vue Component et définir ses propriétés de base.

    Le schéma de sortie sera automatiquement le même que celui du composant qui le précède, tFixedFlowInput dans ce cas.

Créer la table de sortie dans la base de données

  1. Dans l'espace de modélisation graphique, double-cliquez sur le composant tCreateTable pour afficher sa vue Component et définir ses propriétés de base.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour définir la structure suivante pour les données.

    Le schéma que vous spécifiez à cette étape doit déjà correspondre aux différentes opérations d'agrégation que vont subir les données source.

Extraire et filtrer les données

  1. Dans l'espace de modélisation graphique, double-cliquez sur le composant tCombinedSQLInput pour afficher sa vue Component et définir ses propriétés de base.