tCombinedSQLAggregate - 6.3

Composants Talend Open Studio Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Fonction

Le composant tCombinedSQLAggregate collecte les valeurs de données d'une ou plusieurs colonnes d'une table dans des buts statistiques. Ce composant exécute en temps réel des transformations de données dans le SGBD lui-même.

Objectif

Ce composant fournit un ensemble de matrices basées sur des valeurs ou sur des calculs.

Propriétés du tCombinedSQLAggregate

Famille du composant

ELT/CombinedSQL

 

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent.

 

 

Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et Jobs. Voir également le Guide utilisateur du Studio Talend.

 

Group by

Définit les ensembles d'agrégation, dont les valeurs sont utilisées pour les calculs.

 

 

Output Column : Sélectionnez le libellé de colonne dans la liste fournie, basée sur la structure de schéma que vous avez définie. Vous pouvez ajouter autant de colonnes de sortie que vous le souhaitez afin d'affiner les agrégations.

 

 

Input Column : Sélectionnez les libellés des colonnes d'entrée afin de les faire correspondre au contenu attendu des colonnes de sortie, dans le cas où vous souhaitez que les libellés du schéma de sortie soient différents du schéma d'entrée.

 

Operations

Sélectionnez le type d'opération et la valeur à utiliser pour le calcul et le champ de sortie.

 

 

Output Column : Sélectionnez le champ de destination dans la liste.

 

 

Function : Sélectionnez l'une des opérations suivantes à effectuer sur les données : count, min, max, avg, sum, first, last, distinct et count (distinct).

 

 

Input column : Sélectionnez la colonne d'entrée à partir de laquelle vous souhaitez collecter les valeurs à agréger.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du Job ainsi qu'au niveau de chaque composant.

Global Variables

NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable Flow et retourne un entier.

QUERY : requête traitée. Cette variable est une variable Flow et retourne une chaîne de caractères.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est utilisé en tant que composant intermédiaire avec d'autres composants de bases de données, en particulier les composants de connexion et de commit.

Scénario : Filtrer et agréger des colonnes d'une table directement sur le SGBD

Le scénario suivant crée un Job ouvrant une connexion à une base de données MySQL et :

  • alimente une table de base de données avec les données source,

  • crée une table de sortie pour les données filtrées,

  • instancie en partie les schémas d'une table de base de données (pour filtrer les colonnes),

  • filtre deux colonnes dans la même table afin de ne garder que les données correspondant aux deux conditions de filtre,

  • collecte les données des colonnes filtrées, regroupées par valeur(s) spécifique(s) et écrit les données agrégées dans une table cible de base de données.

Ajouter et relier les composants

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : tMysqlConnection, tFixedFlowInput, tMysqlOutput, tCreateTable, tCombinedSQLInput, tCombinedSQLFilter, tCombinedSQLAggregate, tCombinedSQLOutput, tMysqlCommit, tMysqlInput et tLogRow.

  2. Reliez le composant tMysqlConnection au tFixedFlowInput à l'aide d'un lien Trigger > OnSubjobOk.

  3. Procédez de la même manière afin de relier le tFixedFlowInput au tCreateTable, le tCreateTable au tCombinedSQLInput, le tCombinedSQLInput au tMysqlCommit et le tMysqlCommit au tMysqlInput.

  4. Reliez le composant tFixedFlowInput au tMysqlOutput à l'aide d'un lien Row > Main.

  5. Reliez le composant tCombinedSQLInput au tCombinedSQLFilter à l'aide d'un lien Row > Combine.

  6. Procédez de la même manière afin de relier le tCombinedSQLFilter au tCombinedSQLAggregate et le tCombinedSQLAggregate au tCombinedSQLOutput.

  7. Reliez le composant tMysqlInput au tLogRow à l'aide d'un lien Row > Main.

Configurer les composants

Ouvrir une connection MySQL

  1. Lancez MySQL Workbench et démarrez une connexion locale sur le port 3306.

  2. Créez un nouveau schéma que vous nommerez test.

  3. De retour dans l'espace de modélisation graphique, double-cliquez sur le composant tMysqlConnection pour afficher sa vue Component et définir ses propriétés de base.

  4. Dans la vue Basic settings, configurez manuellement les informations de connexion à la base de données ou sélectionnez Repository dans la liste Property Type si votre connexion à la base de données a déjà été configurée et stockée sous le nœud Metadata de la vue Repository.

    Pour plus d'informations concernant le stockage des métadonnées dans le Repository, consultez le Guide utilisateur du Studio Talend.

Insérer les données dans la table source

  1. Dans l'espace de modélisation graphique, double-cliquez sur le composant tFixedFlowInput pour afficher sa vue Component et définir ses propriétés de base.

  2. Dans la vue Basic settings, saisissez 500 dans le champ Number of rows.

  3. Dans ce scénario, la table de la base de données source contient sept colonnes : id, first_name, last_name, city, state, date_of_birth, ainsi que salary.

    Cliquez sur le bouton [...] à côté du champ Edit schema pour définir la structure suivante pour les données.

  4. Cliquez sur l'icône représentant une disquette afin de sauvegarder le schéma pour une utilisation ultérieure.

  5. Dans la fenêtre Select folder, sélectionnez default et cliquez sur OK.

  6. Saisissez le nom que vous avez choisi pour votre schéma et cliquez sur Finish.

  7. Cliquez sur OK.

  8. La première colonne de la table Values reflète automatiquement la structure de données que vous avez précédemment configurée.

  9. Dans la table Values, saisissez une valeur pour chaque colonne.

  10. Dans l'espace de modélisation graphique, double-cliquez sur le composant tMysqlOutput pour afficher sa vue Component et définir ses propriétés de base.

    Le schéma de sortie sera automatiquement le même que celui du composant qui le précède, tFixedFlowInput dans ce cas.

Créer la table de sortie dans la base de données

  1. Dans l'espace de modélisation graphique, double-cliquez sur le composant tCreateTable pour afficher sa vue Component et définir ses propriétés de base.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour définir la structure suivante pour les données.

    Le schéma que vous spécifiez à cette étape doit déjà correspondre aux différentes opérations d'agrégation que vont subir les données source.

Extraire et filtrer les données

  1. Dans l'espace de modélisation graphique, double-cliquez sur le composant tCombinedSQLInput pour afficher sa vue Component et définir ses propriétés de base.