tJoin

Composants Talend Open Studio Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Open Studio for Data Quality
Talend Open Studio for Data Integration
Talend Open Studio for Big Data
task
Qualité et préparation de données
Gouvernance de données
Création et développement
EnrichPlatform
Studio Talend

Fonction

Le tJoin joint deux tables, en appliquant la correspondance exacte dans plusieurs colonnes. Il compare les colonnes du flux principal et les colonnes de référence du flux de référence (Lookup), et écrit les données du flux principal et/ou les données rejetées.

Objectif

Il aide à vérifier la qualité des données de n'importe quelle source par rapport à une source de données de référence.

Propriétés du tJoin

Famille du composant

Processing

 

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (Built-in), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-in : Le schéma est créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisable dans divers projets et Job Designs. Voir également le Guide utilisateur du Studio Talend.

 

Include lookup columns in output

Cochez cette case pour inclure les colonnes de référence (lookup), que vous avez définies, dans le flux de sortie.

Key definition

Input key attribute

Sélectionnez la ou les colonne(s) du flux principal qui doivent être vérifiées par rapport à la colonne clé de référence (lookup).

 

Lookup key attribute

Sélectionnez les colonnes clé de référence (lookup) que vous utiliserez comme référence, afin de les comparer aux colonnes du flux d'entrée.

 

Inner join (with reject output)

Cochez cette case pour joindre d'abord les deux tables et ensuite rassembler les données rejetées du flux principal.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de process du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant n'est pas un composant de début (fond vert), il nécessite deux composants d'entrée, et un ou plusieurs composant(s) de sortie.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario 1 : Faire une correspondance exacte entre deux colonnes et écrire les données rejetées

Ce scénario décrit un Job à cinq composants dont le but est d'effectuer une correspondance exacte entre la colonne firstnameClient d'un fichier d'entrée, par rapport aux données du fichier de référence d'entrée, et la colonne lastnameClient, par rapport aux données du fichier d'entrée de référence. Les sorties de cette correspondance sont écrites dans des fichiers de sortie distincts : les données exactes sont écrites dans un fichier Excel, tandis que les données inexactes sont écrites dans un fichier délimité.

Dans ce scénario, vous avez déjà stocké les schémas d'entrée et les fichiers de référence dans le Repository. Pour plus d'informations à propos du stockage de métadonnées dans l'arborescence du Repository, consultez le Guide utilisateur du Studio Talend.

Déposer et relier les composants

  1. Dans l'arborescence du Repository, développez le nœud Metadata ainsi que le nœud des fichiers (File) où vous avez stocké les schémas d'entrée, et glissez la métadonnée correspondante dans l'espace de modélisation graphique.

    La boîte de dialogue [Components] s'ouvre.

  2. Sélectionnez tFileInputDelimited dans la liste et cliquez sur OK afin de fermer la boîte de dialogue.

    Le composant tFileInputDelimited apparaît dans l'espace de modélisation. Le fichier d'entrée utilisé dans ce scénario est appelé ClientSample. Il contient quatre colonnes, y compris les deux colonnes firstnameClient et lastnameClient sur lesquelles vous voulez appliquer la correspondance exacte.

  3. Répétez l'opération pour le deuxième fichier d'entrée que vous souhaitez utiliser comme référence, ClientSample_Update dans ce scénario.

  4. Glissez les composants suivants de la Palette dans l'espace de modélisation graphique : tJoin, tFileOutputExcel, et tFileOutputDelimited.

  5. Connectez les fichiers principal et de référence au tJoin à l'aide d'une connexion de type Row > Main. Le lien principal entre le fichier de référence et le tJoin s'affiche comme un lien Lookup (de référence) dans l'espace de modélisation.

  6. Connectez le tJoin au tFileOutputExcel à l'aide d'une connexion Main, et le tJoin au tFileOutputDelimited avec une connexion Inner join reject.

Configurer les composants

  1. Au besoin, double-cliquez sur les fichiers d'entrée principal et de référence afin d'afficher leur vue Basic settings. Toutes les propriétés sont automatiquement renseignées. Si vous ne définissez pas vos fichiers d'entrée dans le Repository, remplissez les champs manuellement, après avoir sélectionné Built-in dans le champ Property Type.

    Pour plus d'informations, consultez le Guide utilisateur du Studio Talend.

  2. Double-cliquez sur le tJoin afin d'afficher sa vue Basic settings et définir ses propriétés.

  3. Cliquez sur le bouton situé à côté du champ Edit schema pour ouvrir une boîte de dialogue qui affiche la structure des données des fichiers d'entrée, et définissez les données que vous souhaitez passer aux composants de sortie, trois colonnes dans ce scénario, idClient, firstnameClient et lastnameClient.

  4. Cliquez sur OK pour fermer la boîte de dialogue.

  5. Dans la zone Key definition de l'onglet Basic settings du composant tJoin, cliquez sur le bouton [+] pour ajouter deux colonnes à la liste, puis sélectionnez les colonnes d'entrée et de sortie sur lesquelles la correspondance exacte sera appliquée, depuis les listes Input key attribute et Lookup key attribute, respectivement firstnameClient et lastnameClient dans cet exemple.

  6. Cochez la case Inner join (with reject output) pour définir l'une des sorties comme table de rejet de l'inner join.

  7. Double-cliquez sur le composant tFileOutputExcel pour afficher l'onglet Basic settings de sa vue Component, et définir ses propriétés.

  8. Paramétrez le répertoire de destination ainsi que le nom de la feuille (Sheet name) et cochez la case Include header.

Sauvegarder et exécuter le Job

  1. Double-cliquez sur le composant tFileOutputDelimited pour afficher l'onglet Basic settings de sa vue Component, et définir ses propriétés.

  2. Paramétrez le répertoire de destination ainsi que les séparateurs de lignes (Row separator) et de champs (Field separator) et cochez la case Include header.

  3. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

    La sortie de la correspondance exacte des colonnes firstnameClient et lastnameClient est écrite dans le fichier Excel défini.

    Les données qui ne correspondent pas sont écrites dans le fichier délimité défini.