tDenormalizeSortedRow - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Propriétés du tDenormalizeSortedRow

Famille du composant

Processing/Fields

Fonction

Le composant tDenormalizeSortedRow rassemble dans un groupe toutes les lignes d'entrée dénormalisées triées ainsi que leurs valeurs distinctes, associées par des séparateurs de champ.

Objectif

Le tDenormalizeSortedRow permet de synthétiser les lignes d'entrée triées afin de faire des économies de mémoire.

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (Built-in), soit distant dans le Repository

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Cliquez sur Sync columns pour récupérer le schéma du composant précédent.

 

 

Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et Jobs. Voir également le Guide utilisateur du Studio Talend.

 

Input rows count

Renseignez le nombre de lignes d'entrée.

 

To denormalize

Renseignez le nom de la colonne à dénormaliser.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable After et retourne un entier.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant traite des flux de données, il nécessite donc un composant d'entrée et un composant de sortie.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario : Regrouper des lignes triées

Ce scénario Java décrit un Job à quatre composants. Il permet de lire un fichier délimité donné ligne par ligne, de trier les données d'entrées en fonction de leur type et de leur ordre, de dénormaliser toutes les lignes d'entrées triées et enfin d'afficher le résultat dans la console de la vue Run.

  • A partir de la Palette, cliquez-déposez les composants suivants dans l'éditeur graphique : le tFileInputDelimited, le tSortRow, le tDenormalizeSortedRow et le tLogRow.

  • Connectez les quatre composants à l'aide de liens de type Row Main.

  • Dans l'éditeur graphique, sélectionnez le composant tFileInputDelimited.

  • Cliquez sur la vue Component pour définir la configuration de base (Basic settings) du tFileInputDelimited.

  • Définissez le champ Property Type en mode Built-In.

  • Renseignez le chemin d'accès au fichier à traiter dans le champ File Name. Dans cet exemple, on utilise le fichier name_list, qui comporte deux colonnes, id et first name.

  • Définissez si nécessaire les séparateurs de lignes et de champs, l'en-tête et le pied-de-page, ainsi que le nombre de lignes traitées.

  • Définissez le champ Schema en mode Built in puis cliquez sur le bouton [...] à côté du champ Edit Schema pour définir les données à passer au composant suivant. Dans cet exemple, le schéma est constitué de deux colonnes, id et name.

  • Dans l'espace graphique, sélectionnez le composant tSortRow.

  • Cliquez sur la vue Component pour en définir la configuration de base (Basic settings) du tSortRow.

  • Définissez le champ Schema Type en mode Built-In puis cliquez sur Sync columns pour récupérer le schéma à partir du composant tFileInputDelimited.

  • Dans le panneau Criteria, cliquez sur le bouton [+] pour ajouter une ligne puis définissez les paramètres de tri pour la colonne du schéma à traiter. Dans cet exemple, on veut trier la colonne id dans l'ordre croissant.

  • Dans l'espace graphique, sélectionnez le composant tDenormalizeSortedRow.

  • Cliquez sur la vue Component pour définir la configuration de base (Basic settings) du tDenormalizeSortedRow.

  • Définissez le champ Schema en mode Built-In puis cliquez sur Sync columns pour récupérer le schéma à partir du schéma du composant tSortRow.

  • Dans le champ Input rows count, saisissez le nombre de lignes d'entrée à traiter ou cliquez simultanément sur Ctrl+Espace pour accéder à la liste des variables de contexte puis sélectionnez la variable : tFileInputDelimited_1_NB_LINE

  • Dans le panneau To denormalize, cliquez sur le bouton [+] pour ajouter une ligne puis définissez les paramètres de la colonne à dénormaliser. Dans cet exemple, on veut dénormaliser la colonne name.

  • Dans l'éditeur graphique, sélectionnez le composant tLogRow puis cliquez sur la vue Component pour en définir la configuration de base (Basic settings). Pour plus d'informations sur le tLogRow, consultez tLogRow.

  • Enregistrez votre Job puis appuyez sur F6 pour l'exécuter.

Le résultat affiché sur la console montre la façon dont la colonne name a été dénormalisée.