Scénario 1 : Faire une correspondance exacte entre deux colonnes et écrire les données rejetées

Composants Talend Open Studio Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for Data Quality
Talend Open Studio for Big Data
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Open Studio for Data Integration
task
Gouvernance de données
Qualité et préparation de données
Création et développement
EnrichPlatform
Studio Talend

Ce scénario décrit un Job à cinq composants dont le but est d'effectuer une correspondance exacte entre la colonne firstnameClient d'un fichier d'entrée, par rapport aux données du fichier de référence d'entrée, et la colonne lastnameClient, par rapport aux données du fichier d'entrée de référence. Les sorties de cette correspondance sont écrites dans des fichiers de sortie distincts : les données exactes sont écrites dans un fichier Excel, tandis que les données inexactes sont écrites dans un fichier délimité.

Dans ce scénario, vous avez déjà stocké les schémas d'entrée et les fichiers de référence dans le Repository. Pour plus d'informations à propos du stockage de métadonnées dans l'arborescence du Repository, consultez le Guide utilisateur du Studio Talend.

Déposer et relier les composants

  1. Dans l'arborescence du Repository, développez le nœud Metadata ainsi que le nœud des fichiers (File) où vous avez stocké les schémas d'entrée, et glissez la métadonnée correspondante dans l'espace de modélisation graphique.

    La boîte de dialogue [Components] s'ouvre.

  2. Sélectionnez tFileInputDelimited dans la liste et cliquez sur OK afin de fermer la boîte de dialogue.

    Le composant tFileInputDelimited apparaît dans l'espace de modélisation. Le fichier d'entrée utilisé dans ce scénario est appelé ClientSample. Il contient quatre colonnes, y compris les deux colonnes firstnameClient et lastnameClient sur lesquelles vous voulez appliquer la correspondance exacte.

  3. Répétez l'opération pour le deuxième fichier d'entrée que vous souhaitez utiliser comme référence, ClientSample_Update dans ce scénario.

  4. Glissez les composants suivants de la Palette dans l'espace de modélisation graphique : tJoin, tFileOutputExcel, et tFileOutputDelimited.

  5. Connectez les fichiers principal et de référence au tJoin à l'aide d'une connexion de type Row > Main. Le lien principal entre le fichier de référence et le tJoin s'affiche comme un lien Lookup (de référence) dans l'espace de modélisation.

  6. Connectez le tJoin au tFileOutputExcel à l'aide d'une connexion Main, et le tJoin au tFileOutputDelimited avec une connexion Inner join reject.

Configurer les composants

  1. Au besoin, double-cliquez sur les fichiers d'entrée principal et de référence afin d'afficher leur vue Basic settings. Toutes les propriétés sont automatiquement renseignées. Si vous ne définissez pas vos fichiers d'entrée dans le Repository, remplissez les champs manuellement, après avoir sélectionné Built-in dans le champ Property Type.

    Pour plus d'informations, consultez le Guide utilisateur du Studio Talend.

  2. Double-cliquez sur le tJoin afin d'afficher sa vue Basic settings et définir ses propriétés.

  3. Cliquez sur le bouton situé à côté du champ Edit schema pour ouvrir une boîte de dialogue qui affiche la structure des données des fichiers d'entrée, et définissez les données que vous souhaitez passer aux composants de sortie, trois colonnes dans ce scénario, idClient, firstnameClient et lastnameClient.

  4. Cliquez sur OK pour fermer la boîte de dialogue.

  5. Dans la zone Key definition de l'onglet Basic settings du composant tJoin, cliquez sur le bouton [+] pour ajouter deux colonnes à la liste, puis sélectionnez les colonnes d'entrée et de sortie sur lesquelles la correspondance exacte sera appliquée, depuis les listes Input key attribute et Lookup key attribute, respectivement firstnameClient et lastnameClient dans cet exemple.

  6. Cochez la case Inner join (with reject output) pour définir l'une des sorties comme table de rejet de l'inner join.

  7. Double-cliquez sur le composant tFileOutputExcel pour afficher l'onglet Basic settings de sa vue Component, et définir ses propriétés.

  8. Paramétrez le répertoire de destination ainsi que le nom de la feuille (Sheet name) et cochez la case Include header.

Sauvegarder et exécuter le Job

  1. Double-cliquez sur le composant tFileOutputDelimited pour afficher l'onglet Basic settings de sa vue Component, et définir ses propriétés.

  2. Paramétrez le répertoire de destination ainsi que les séparateurs de lignes (Row separator) et de champs (Field separator) et cochez la case Include header.

  3. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

    La sortie de la correspondance exacte des colonnes firstnameClient et lastnameClient est écrite dans le fichier Excel défini.

    Les données qui ne correspondent pas sont écrites dans le fichier délimité défini.