tUniqRow - 6.1

Composants Talend Open Studio Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Fonction

Le composant tUniqRow compare les entrées et supprime les doublons du flux d'entrée.

Objectif

Ce composant assure une qualité de données des flux d'entrée et de sortie du Job.

Propriétés du tUniqRow

Famille de composant

Data Quality

 

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Unique key

Sélectionnez dans cette zone une ou plusieurs colonnes sur lesquelles le dédoublonnage sera effectué.

- Cochez la case Key attribute afin d'effectuer le dédoublonnage sur toutes les colonnes.

- Cochez la case Case sensitive afin de différencier les majuscules et les minuscules.

Advanced settings

Only once each duplicated key

Cochez cette case si vous souhaitez envoyer uniquement les premières entrées en doublon des colonnes définies comme clé(s) vers le flux de sortie des doublons.

 

Use of disk (suitable for processing large row set)

Cochez cette case pour permettre la génération de fichiers temporaires sur le disque dur lors du traitement de données volumineuses. Cela permet d'empêcher l'échec de l'exécution d'un Job dû à un débordement de la mémoire. Quand cette case est cochée, vous devez également définir les éléments suivants :

- Buffer size in memory: Sélectionnez le nombre de lignes à mettre en mémoire tampon avant qu'un fichier temporaire ne soit généré sur le disque dur.

- Directory for temp files: Indiquez l'endroit où les fichiers temporaires doivent être enregistrés.

Avertissement

Assurez-vous que le répertoire indiqué pour vos fichiers temporaires existe, sans quoi l'exécution du Job échouera.

 

Ignore trailing zeros for BigDecimal

Cochez cette case pour ignorer les zéros en fin de champs pour les données de type BigDecimal.

 

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de process du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

NB_UNIQUES : nombre de lignes uniques. Cette variable est une variable After et retourne un nombre entier.

NB_DUPLICATES : nombre de lignes en doublon. Cette variable est une variable After et retourne un nombre entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est un composant intermédiaire puisqu'il sert à traiter un flux de données. Ainsi, il nécessite un composant d'entrée et un composant de sortie.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario 1 : Dédoublonner des données

Ce scénario décrit un Job à cinq composants, dont le but est de trier des entrées à partir d'une liste d'entrée comprenant des noms, de trouver des noms en doublons, et d'afficher les noms uniques ainsi que les noms en doublon dans la console Run.

Construire le Job

  1. A partir de la Palette, cliquez et déposez les composants suivants dans l'espace de modélisation graphique : un tFileInputDelimited, un tSortRow, un tUniqRow, ainsi que deux composants tLogRow, et nommez-les comme illustré ci-dessus.

  2. Connectez les composants tFileInputDelimited, tSortRow, et tUniqRow à l'aide de liens Row > Main.

  3. Connectez le tUniqRow au premier tLogRow à l'aide d'un lien Main > Uniques.

  4. Connectez le composant tUniqRow au second tLogRow via une connexion de type Main > Duplicates.

Configurer les composants

  1. Double-cliquez sur le composant tFileInputDelimited afin d'afficher l'onglet Basic settings de sa vue Component.

  2. Cliquez sur le bouton [...] à côté du champ File Name pour sélectionner le fichier contenant les données d'entrée.

  3. Définissez l'en-tête (Header) et le pied de page (Footer). Dans ce scénario, la ligne d'en-tête est la première ligne du fichier d'entrée.

  4. Cliquez sur Edit schema pour définir le schéma de ce composant. Dans ce scénario, le fichier d'entrée comprend cinq colonnes : Id, FirstName, LastName, Age, et City. Cliquez ensuite sur OK pour propager le schéma et fermer l'éditeur de schéma.

  5. Double-cliquez sur le tSortRow afin d'afficher sa vue Basic settings.

  6. Afin de disposer les entrées en fonction de l'ordre alphabétique des noms, ajoutez deux lignes au tableau Criteria en cliquant sur le bouton [+], sélectionnez les colonnes FirstName et LastName sous Schema column, sélectionnez le type de tri alphabétique (alpha), puis sélectionnez l'ordre ascendant (asc).

  7. Double-cliquez sur le composant tUniqRow afin d'afficher l'onglet Basic settings de sa vue Component.

  8. Dans la zone Unique key, sélectionnez les colonnes sur lesquelles vous souhaitez effectuer le dédoublonnage. Dans ce scénario, les noms en doublon seront triés.

  9. Dans l'onglet Basic settings de la vue Component des deux composants tLogRow, cochez l'option Table afin de visualiser le résultat de l'exécution du Job en mode tableau.

Sauvegarder et exécuter le Job

  1. Sauvegardez votre Job à l'aide des touches Ctrl+S.

  2. Exécutez le Job en appuyant sur la touche F6 ou en cliquant sur le bouton Run de l'onglet Run.

    Dans la console Run, les noms uniques et les noms en doublon sont affichés dans des tableaux différents.