tAggregateRow - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Fonction

Le composant tAggregateRow reçoit un flux de données et fait une agrégation basée sur une ou plusieurs colonnes. Pour chacune des lignes en sortie, une clé d'agrégation est fournie, ainsi que le résultat de l'opération d'agrégation correspondant (min, max, sum, etc.).

Objectif

Il permet d'établir des métriques et des statistiques basées sur des valeurs ou des calculs.

Selon la solution Talend que vous utilisez, ce composant peut être utilisé dans un framework de Jobs, dans plusieurs, ou dans tous les frameworks :

Propriétés du tAggregateRow

Famille de composant

Processing

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Ce composant offre la fonction de schéma dynamique. Cela vous permet de récupérer des colonnes inconnues à partir de fichiers source ou de copier des lots de colonnes d'une source sans avoir à mapper individuellement ces colonnes. Pour plus d'informations concernant les schémas dynamiques, consultez le Guide utilisateur de Studio Talend.

Cette fonctionnalité de schéma dynamique est conçue pour permettre de récupérer des colonnes inconnues d'une table. Il est recommandé de l'utiliser uniquement à cet effet et non pour créer des tables.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Group by

Définit les ensembles d'agrégation, dont les valeurs sont utilisées pour les calculs.

 

 

Output Column : Sélectionnez le libellé de colonne dans la liste fournie, basée sur la structure de schéma que vous avez définie. Vous pouvez ajouter autant de colonnes de sortie que vous le souhaitez afin d'affiner les agrégations.

Ex : Sélectionnez Country (Pays) pour calculer la moyenne des valeurs pour chaque pays ou sélectionnez Country et Region pour comparer les résultats des régions d'un pays par rapport aux régions d'un autre pays.

 

 

Input Column : Faites la correspondance entre les libellés des colonnes d'entrée avec ceux des colonnes de sortie, dans le cas où vous souhaitez que les libellés du schéma de sortie soient différents du schéma d'entrée.

 

Operations

Sélectionnez le type d'opération à effectuer ainsi que la valeur à utiliser pour le calcul et le champ de sortie.

 

 

Output Column : Sélectionnez le champ de destination dans la liste.

 

 

Fonction : Sélectionnez l'opérateur parmi :

count : calcule le nombre de ligne,

min : sélectionne la plus petite valeur,

max : sélectionne la plus grande valeur,

avg : calcule la moyenne,

sum : calcule la somme,

first : retourne la première valeur,

last : retourne la dernière valeur,

list : liste les valeurs d'une agrégation de plusieurs clés.

list (object) : liste les valeurs Java d'une agrégation de plusieurs clés,

count (distinct) : compte le nombre de lignes sans les doublons,

standard deviation : calcule l'écart-type.

 

 

Input column position : Sélectionnez la colonne d'entrée à partir de laquelle les valeurs sont collectées pour l'agrégation.

 

 

Ignore null values : Cochez cette case devant le nom de toutes les colonnes pour lesquelles vous voulez que les valeurs nulles soient ignorées.

Advanced settings

Delimiter(only for list operation)

Saisissez le séparateur que vous souhaitez utiliser afin de séparer les différentes opérations.

 

Use financial precision, this is the max precision for "sum" and "avg" operations, checked option heaps more memory and slower than unchecked.

Cochez cette case afin d'utiliser une précision financière, une précision maximale, mais qui consomme plus de mémoire et rend le processus plus lent.

Avertissement

Il est conseillé d'utiliser le type BigDecimal en sortie avec cette option, afin d'obtenir des résultats précis.

 

Check type overflow (slower)

Vérifie les types des données afin d'éviter que le Job ne plante

 

Check ULP (Unit in the Last Place), ensure that a value will be incremented or decremented correctly, only float and double types. (slower)

Cochez cette case afin d'avoir la meilleure précision possible pour les types Float et Double.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est un composant intermédiaire car il traite un flux de données, par conséquent il requiert des composants en entrée comme en sortie. Généralement, l'utilisation du composant tAggregateRow est combinée au composant tSortRow.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Agréger des valeurs et trier des données

Cet exemple vous montre comment utiliser des composants Talend pour agréger les résultats totaux d'étudiants et trier les résultats agrégés selon le nom des étudiants.

Créer un Job pour agréger et trier les données

Créez un Job pour agréger les résultats totaux des étudiants à l'aide du composant tAggregateRow, trier les données agrégées à l'aide du tSortRow, puis pour afficher les données agrégées et triées dans la console.

  1. Créez un nouveau Job et ajoutez un composant tFixedFlowInput, un tAggregateRow, un tSortRow et un tLogRow en saisissant leur nom dans l'espace de modélisation graphique ou en les déposant depuis la Palette.

  2. Reliez le composant tFixedFlowInput au tAggregateRow à l'aide d'un lien Row > Main.

  3. Répétez l'opération pour relier le tAggregateRow au tSortRow et le tSortRow au tLogRow.

Configurer le Job pour agréger et trier les données

Configurez le Job pour agréger les résultats totaux des étudiants à l'aide du tAggregateRow et trier les données agrégées à l'aide du composant tSortRow.

  1. Double-cliquez sur le composant tFixedFlowInput pour ouvrir sa vue Basic settings.

  2. Cliquez sur le bouton à côté du champ Edit schema pour ouvrir la fenêtre de schéma et le définir, en ajoutant deux colonnes, name, de type String et score, de type Double. Cela fait, cliquez sur OK pour sauvegarder les modifications et fermer la fenêtre du schéma.

  3. Dans la zone Mode, sélectionnez Use Inline Content (delimited file) et, dans le champ Content qui s'affiche, saisissez les données d'entrée suivantes :

    Peter;92
    James;93
    Thomas;91
    Peter;94
    James;96
    Thomas;95
    Peter;96
    James;92
    Thomas;98
    Peter;95
    James;96
    Thomas;93
    Peter;98
    James;97
    Thomas;95
  4. Double-cliquez sur le composant tAggregateRow pour ouvrir sa vue Basic settings.

  5. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la fenêtre du schéma et définissez le schéma en ajoutant cinq colonnes, name, de type String et sum, average, max et min, de type Double.

    Cela fait, cliquez sur OK pour sauvegarder les modifications et fermer la fenêtre du schéma.

  6. Ajoutez une ligne à la table Group by en cliquant sur le bouton [+] sous la table et sélectionnez name dans les colonnes Output column et Input column position, afin de grouper les données d'entrée selon la colonne name.

  7. Ajoutez quatre lignes à la table Operations et définissez les opérations à effectuer. Dans cet exemple, les opérations sont sum, average, max et min. Sélectionnez score dans les quatre lignes de la colonne Input column position afin d'agréger les données d'entrée selon les résultats.

  8. Double-cliquez sur le tSortRow pour ouvrir sa vue Basic settings.

  9. Ajoutez une ligne à la table Criteria et spécifiez la colonnes sur laquelle baser l'opération de tri. Dans cet exemple, la colonne name. Sélectionnez alpha dans la colonne sort num or alpha?, puis asc dans la colonne Order asc or desc?, afin de trier les données agrégées par ordre alphabétique ascendant.

  10. Double-cliquez sur le composant tLogRow pour ouvrir sa vue Basic settings et sélectionnez Table (print values in cells of a table) dans la zone Mode, pour une lisibilité optimale des résultats.

Exécuter le Job pour agréger et trier les données

Après avoir configuré le Job et ses composants pour agréger et trier les données, vous pouvez exécuter le Job et vérifier ses résultats d'exécution.

  1. Appuyez sur les touches Ctrl + S afin de sauvegarder le Job.

  2. Appuyez sur F6 pour l'exécuter.

    Comme affiché ci-dessus, les résultats totaux des étudiants sont agrégés et triés par ordre alphabétique ascendant selon le nom des étudiants.

Agréger des valeurs à partir d'un schéma dynamique

Voici un exemple d'utilisation du composant tAggregateRow permettant d'agréger, dans un fichier CSV, des données relatives à des affectations de tâches, en se basant sur une colonne de schéma dynamique.

Créer un Job pour agréger des valeurs à partir d'un schéma dynamique

Créez un Job pour agréger, dans un fichier CSV, des données relatives à des affectations de tâches, en se basant sur une colonne de schéma dynamique, à l'aide du composant tAggregateRow, puis afficher les données agrégées dans la console et les écrire dans un fichier de sortie CSV.

  1. Créez un nouveau Job et ajoutez un tFileInputDelimited, un tAggregateRow, un tLogRow et un tFileOutputDelimited, en saisissant leur nom dans l'espace de modélisation graphique, ou en les déposant depuis la Palette.

  2. Reliez le tFileInputDelimited au tAggregateRow à l'aide d'un lien Row > Main.

  3. Répétez l'opération pour relier le composant tAggregateRow au tLogRow, puis le tLogRow au tFileOutputDelimited.

Configurer le Job

Configurez le Job pour agréger, dans un fichier CSV, des données relatives à l'affectation de tâches, en se basant sur une colonne de schéma dynamique. Pour cela, utilisez un composant tAggregateRow, puis affichez les données agrégées dans la console, à l'aide d'un tLogRow et écrivez ces données dans un fichier CSV de sortie, à l'aide d'un composant tFileOutputDelimited.

  1. Double-cliquez sur le tFileInputDelimited pour ouvrir sa vue Basic settings.

  2. Dans le champ File name/Stream, spécifiez le chemin d'accès au fichier CSV contenant les données relatives aux affectations des tâches, D:/tasks.csv dans cet exemple.

    task;team;status
    task1;team1;done
    task2;team2;done
    task3;team1;done
    task4;team2;pending
    task5;team1;pending
    task6;team2;pending
  3. Dans le champ Header, saisissez le nombre de lignes à ignorer au début du fichier, 1 dans cet exemple.

    Notez que la fonctionnalité de schéma dynamique est supportée uniquement en mode Built-In et requiert que le fichier d'entrée possède une ligne d'en-tête.

  4. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la fenêtre du schéma et définissez-le en ajoutant deux colonnes, task de type String et other de type Dynamic. Cela fait, cliquez sur OK afin de sauvegarder les modifications et fermer la fenêtre du schéma.

    Notez que la colonne dynamique doit être définie en dernière position du schéma. Pour plus d'informations concernant le schéma dynamique, consultez le Guide utilisateur du Studio Talend.

  5. Double-cliquez sur le composant tAggregateRow et, dans sa vue Basic settings, cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent.

  6. Ajoutez une ligne à la table Group by en cliquant sur le bouton [+] sous cette table et sélectionnez other dans les colonnes Output column et Input column position afin de grouper les données d'entrée par la colonne dynamique other.

    Notez que l'agrégation de la colonne dynamique peut s'effectuer uniquement pour l'opération de regroupement.

  7. Ajoutez une ligne à la table Operations et définissez l'opération à effectuer. Dans cet exemple, la fonction de l'opération est list. Sélectionnez task dans les colonnes Output column et Input column position afin de lister les entrées dans la colonne task, dans les résultats du regroupement.

  8. Double-cliquez sur le tLogRow pour ouvrir sa vue Basic settings et sélectionnez Table (print values in cells of a table), dans la zone Mode, pour une lisibilité optimale des résultats.

  9. Double-cliquez sur le tFileOutputDelimited pour ouvrir sa vue Basic settings et, dans le champ File Name, spécifiez le chemin d'accès au fichier CSV dans lequel écrire les données agrégées, D:/tasks_aggregated.csv, dans cet exemple.

  10. Cochez la case Include Header pour inclure l'en-tête de chaque colonne dans le fichier CSV.

Exécuter le Job

Après avoir configuré le Job et ses composants, pour agréger des données relatives à l'affectation de tâches, à partir d'une colonne de schéma dynamique, vous pouvez exécuter le Job et vérifier ses résultats d'exécution.

  1. Appuyez sur Ctrl + S afin de sauvegarder le Job.

  2. Appuyez sur F6 pour l'exécuter.

    Comme affiché ci-dessus, les données sont agrégées selon la colonne dynamique other, affichées dans la console et écrites dans le fichier CSV de sortie.

Le composant tAggregateRow dans des Jobs Map/Reduce Talend

Avertissement

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à l'une des solutions Big Data de Talend et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Dans un Job Map/Reduce Talend, le tAggregateRow, ainsi que le Job complet utilisant ce composant, génère du code Map/Reduce natif. Cette section présente les propriétés du tAggregateRow lorsqu'il est utilisé dans un Job Map/Reduce. Pour plus d'informations concernant un Job Map/Reduce Talend, consultez le Guide de prise en main de Talend Big Data.

Famille de composant

Processing

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Ce composant offre la fonction de schéma dynamique. Cela vous permet de récupérer des colonnes inconnues à partir de fichiers source ou de copier des lots de colonnes d'une source sans avoir à mapper individuellement ces colonnes. Pour plus d'informations concernant les schémas dynamiques, consultez le Guide utilisateur de Studio Talend.

Cette fonctionnalité de schéma dynamique est conçue pour permettre de récupérer des colonnes inconnues d'une table. Il est recommandé de l'utiliser uniquement à cet effet et non pour créer des tables.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Group by

Définit les ensembles d'agrégation, dont les valeurs sont utilisées pour les calculs.

 

 

Output Column : Sélectionnez le libellé de colonne dans la liste fournie, basée sur la structure de schéma que vous avez définie. Vous pouvez ajouter autant de colonnes de sortie que vous le souhaitez afin d'affiner les agrégations.

Ex : Sélectionnez Country (Pays) pour calculer la moyenne des valeurs pour chaque pays ou sélectionnez Country et Region pour comparer les résultats des régions d'un pays par rapport aux régions d'un autre pays.

 

 

Input Column : Faites la correspondance entre les libellés des colonnes d'entrée avec ceux des colonnes de sortie, dans le cas où vous souhaitez que les libellés du schéma de sortie soient différents du schéma d'entrée.

 

Operations

Sélectionnez le type d'opération à effectuer ainsi que la valeur à utiliser pour le calcul et le champ de sortie.

 

 

Output Column : Sélectionnez le champ de destination dans la liste.

 

 

Fonction : Sélectionnez l'opérateur parmi :

count : calcule le nombre de ligne,

min : sélectionne la plus petite valeur,

max : sélectionne la plus grande valeur,

avg : calcule la moyenne,

sum : calcule la somme,

first : retourne la première valeur,

last : retourne la dernière valeur,

list : liste les valeurs d'une agrégation de plusieurs clés.

list (object) : liste les valeurs Java d'une agrégation de plusieurs clés,

count (distinct) : compte le nombre de lignes sans les doublons,

standard deviation : calcule l'écart-type.

 

 

Input column position : Sélectionnez la colonne d'entrée à partir de laquelle les valeurs sont collectées pour l'agrégation.

 

 

Ignore null values : Cochez cette case devant le nom de toutes les colonnes pour lesquelles vous voulez que les valeurs nulles soient ignorées.

Advanced settings

Delimiter(only for list operation)

Saisissez le séparateur que vous souhaitez utiliser afin de séparer les différentes opérations.

 

Use financial precision, this is the max precision for "sum" and "avg" operations, checked option heaps more memory and slower than unchecked.

Cochez cette case afin d'utiliser une précision financière, une précision maximale, mais qui consomme plus de mémoire et rend le processus plus lent.

Avertissement

Il est conseillé d'utiliser le type BigDecimal en sortie avec cette option, afin d'obtenir des résultats précis.

 

Check type overflow (slower)

Vérifie les types des données afin d'éviter que le Job ne plante

 

Check ULP (Unit in the Last Place), ensure that a value will be incremented or decremented correctly, only float and double types. (slower)

Cochez cette case afin d'avoir la meilleure précision possible pour les types Float et Double.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation dans les Jobs Map/Reduce

Dans un Job Talend Map/Reduce, il est utilisé comme étape intermédiaire, avec d'autres composants Map/Reduce. Ils génèrent nativement du code Map/Reduce pouvant être exécuté directement dans Hadoop.

Pour plus d'informations concernant les Jobs Talend Map/Reduce, consultez les sections décrivant comment créer, convertir et configurer un Job Talend Map/Reduce, dans le Guide de prise en main de Talend Big Data.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données et non des Jobs Map/Reduce.

Scénario associé

Aucun scénario n'est disponible pour la version Map/Reduce de ce composant.

Propriétés du tAggregateRow dans des Jobs Spark Batch

Famille de composant

Processing

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Ce composant offre la fonction de schéma dynamique. Cela vous permet de récupérer des colonnes inconnues à partir de fichiers source ou de copier des lots de colonnes d'une source sans avoir à mapper individuellement ces colonnes. Pour plus d'informations concernant les schémas dynamiques, consultez le Guide utilisateur de Studio Talend.

Cette fonctionnalité de schéma dynamique est conçue pour permettre de récupérer des colonnes inconnues d'une table. Il est recommandé de l'utiliser uniquement à cet effet et non pour créer des tables.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Group by

Définit les ensembles d'agrégation, dont les valeurs sont utilisées pour les calculs.

 

 

Output Column : Sélectionnez le libellé de colonne dans la liste fournie, basée sur la structure de schéma que vous avez définie. Vous pouvez ajouter autant de colonnes de sortie que vous le souhaitez afin d'affiner les agrégations.

Ex : Sélectionnez Country (Pays) pour calculer la moyenne des valeurs pour chaque pays ou sélectionnez Country et Region pour comparer les résultats des régions d'un pays par rapport aux régions d'un autre pays.

 

 

Input Column : Faites la correspondance entre les libellés des colonnes d'entrée avec ceux des colonnes de sortie, dans le cas où vous souhaitez que les libellés du schéma de sortie soient différents du schéma d'entrée.

 

Operations

Sélectionnez le type d'opération à effectuer ainsi que la valeur à utiliser pour le calcul et le champ de sortie.

 

 

Output Column : Sélectionnez le champ de destination dans la liste.

 

 

Fonction : Sélectionnez l'opérateur parmi :

count : calcule le nombre de ligne,

min : sélectionne la plus petite valeur,

max : sélectionne la plus grande valeur,

avg : calcule la moyenne,

sum : calcule la somme,

first : retourne la première valeur,

last : retourne la dernière valeur,

list : liste les valeurs d'une agrégation de plusieurs clés.

list (object) : liste les valeurs Java d'une agrégation de plusieurs clés,

count (distinct) : compte le nombre de lignes sans les doublons,

standard deviation : calcule l'écart-type.

 

 

Input column position : Sélectionnez la colonne d'entrée à partir de laquelle les valeurs sont collectées pour l'agrégation.

 

 

Ignore null values : Cochez cette case devant le nom de toutes les colonnes pour lesquelles vous voulez que les valeurs nulles soient ignorées.

Advanced settings

Use financial precision, this is the max precision for "sum" and "avg" operations, checked option heaps more memory and slower than unchecked.

Cochez cette case afin d'utiliser une précision financière, une précision maximale, mais qui consomme plus de mémoire et rend le processus plus lent.

Avertissement

Il est conseillé d'utiliser le type BigDecimal en sortie avec cette option, afin d'obtenir des résultats précis.

 

Check type overflow (slower)

Vérifie les types des données afin d'éviter que le Job n'échoue.

 

Check ULP (Unit in the Last Place), ensure that a value will be incremented or decremented correctly, only float and double types. (slower)

Cochez cette case afin d'avoir la meilleure précision possible pour les types Float et Double.

Utilisation dans des Jobs Spark Batch

Ce composant est utilisé comme étape intermédiaire.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Spark Connection

Vous devez utiliser l'onglet Spark Configuration de la vue Run afin de définir la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, un (et un seul) composant relatif à un système de fichiers de la famille Storage est requis au sein du même Job, afin que Spark puisse utiliser ce composant pour se connecter au système de fichiers auquel les fichiers .jar dépendants du Job sont transférés :

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario associé

Pour un scénario associé, consultez Effectuer une analyse de téléchargement à l'aide d'un Job Spark Batch.

Propriétés du tAggregateRow dans des Jobs Spark Streaming

Avertissement

La version Streaming de ce composant est disponible dans la Palette du studio si vous avez souscrit à Talend Real-time Big Data Platform ou Talend Data Fabric.

Famille de composant

Processing

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Ce composant offre la fonction de schéma dynamique. Cela vous permet de récupérer des colonnes inconnues à partir de fichiers source ou de copier des lots de colonnes d'une source sans avoir à mapper individuellement ces colonnes. Pour plus d'informations concernant les schémas dynamiques, consultez le Guide utilisateur de Studio Talend.

Cette fonctionnalité de schéma dynamique est conçue pour permettre de récupérer des colonnes inconnues d'une table. Il est recommandé de l'utiliser uniquement à cet effet et non pour créer des tables.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Group by

Définit les ensembles d'agrégation, dont les valeurs sont utilisées pour les calculs.

 

 

Output Column : Sélectionnez le libellé de colonne dans la liste fournie, basée sur la structure de schéma que vous avez définie. Vous pouvez ajouter autant de colonnes de sortie que vous le souhaitez afin d'affiner les agrégations.

Ex : Sélectionnez Country (Pays) pour calculer la moyenne des valeurs pour chaque pays ou sélectionnez Country et Region pour comparer les résultats des régions d'un pays par rapport aux régions d'un autre pays.

 

 

Input Column : Faites la correspondance entre les libellés des colonnes d'entrée avec ceux des colonnes de sortie, dans le cas où vous souhaitez que les libellés du schéma de sortie soient différents du schéma d'entrée.

 

Operations

Sélectionnez le type d'opération à effectuer ainsi que la valeur à utiliser pour le calcul et le champ de sortie.

 

 

Output Column : Sélectionnez le champ de destination dans la liste.

 

 

Fonction : Sélectionnez l'opérateur parmi :

count : calcule le nombre de ligne,

min : sélectionne la plus petite valeur,

max : sélectionne la plus grande valeur,

avg : calcule la moyenne,

sum : calcule la somme,

first : retourne la première valeur,

last : retourne la dernière valeur,

list : liste les valeurs d'une agrégation de plusieurs clés.

list (object) : liste les valeurs Java d'une agrégation de plusieurs clés,

count (distinct) : compte le nombre de lignes sans les doublons,

standard deviation : calcule l'écart-type.

 

 

Input column position : Sélectionnez la colonne d