Scénario 1 : Mapping simple de données avec filtre et jointure explicite - 6.1

Composants Talend Open Studio Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Le Job ci-dessous a pour objectif de lire des données d'un fichier .csv stocké dans le Repository, de rechercher des données d'un fichier de référence, dont le schéma est également stocké dans le Repository puis d'extraire des données de ces deux fichiers en fonction de filtres et d'envoyer ces données vers les fichiers de sortie et de rejet.

Construire le Job

  1. Déposez deux composants tFileInputDelimited, un tMap et trois tFileOutputDelimited de la Palette dans l'espace de modélisation graphique.

  2. Renommez respectivement les deux tFileInputDelimited Cars (voitures) et Owners (propriétaires).

  3. Reliez les deux composants d'entrée au tMap à l'aide de liens Row > Main et nommez ces connexions Cars_data et Owners_Data, respectivement.

  4. Reliez le tMap aux trois composants de sortie à l'aide de liens Row > New Output (Main) et nommez ces connexions, respectivement, Insured, Reject_NoInsur et Reject_OwnerID.

Configurer les composants

  1. Double-cliquez sur le composant tFileInputDelimited nommé Cars pour paramétrer ses propriétés de base (Basic settings).

  2. Sélectionnez Repository dans les champs Property type et Schema. Pour le schéma, sélectionnez la métadonnée cars dans la boîte de dialogue [Repository Content]. Le reste des champs est automatiquement renseigné lorsque vous sélectionnez la métadonnée appropriée dans la liste.

  3. Double-cliquez sur le composant Owners et définissez à nouveau les propriétés. Sélectionnez la métadonnée appropriée, owners dans cet exemple.

    Note

    Dans ce scénario, les schémas d'entrée sont stockés dans le nœud Metadata de la vue Repository afin de les retrouver plus facilement. Pour plus d'informations concernant la création de métadonnées dans le Repository, consultez le Guide utilisateur du Studio Talend.

  4. Double-cliquez sur le composant tMap pour ouvrir le Mapper. La zone Input (données en entrée) est déjà renseignée avec les schémas des composants d'entrée et la première table correspond au flux principal (Main Row). Les libellés de chacune des connexions d'entrée apparaissent en en-tête des tables.

  5. Créez une jointure entre les deux tables d'entrée en faisant simplement glisser le champ ID_Owner de la table principale (Cars_data) vers le champ équivalent de la table de référence (Owners_data).

  6. Définissez le lien en Inner Join en cliquant sur le bouton tMap settings, en cliquant dans le champ Value pour Join Model, en cliquant sur le bouton qui apparaît dans le champ et en sélectionnant Inner Join dans la liste Options.

  7. Glissez et déposez le contenu de la table Cars_data vers la table Insured.

  8. Glissez les colonnes ID_Owner, Registration et ID_Reseller de la table Cars_data, ainsi que la colonne Name de la table Owners_data dans la table Reject_NoInsur.

  9. Glissez toutes les colonnes de la table Cars_data dans la table Reject_OwnerID.

    Pour plus d'informations concernant le mapping de données, consultez le Guide utilisateur du Studio Talend.

  10. Cliquez sur le bouton [+] en haut de la table Insured afin d'ajouter une ligne de filtre.

    Glissez la colonne ID_Insurance de la table Owners_data vers la zone de filtre et saisissez la formule suivante d'exclusion des valeurs non définies : Owners_data.ID_Insurance != null.

    Avec ce filtre, la table Insured va rassemble tous les enregistrements qui possèdent un ID Insurance.

  11. Cliquez sur le bouton tMap settings en haut de la table Reject_NoInsur et sélectionnez true pour Catch lookup inner join reject afin que de définir cette table comme le flux de rejet standard pour rassembler les enregistrements n'ayant pas d'ID Insurance.

  12. Cliquez sur le bouton tMap Settings en haut de la table Reject_OwnerID puis sélectionnez true pour Catch lookup inner join reject afin que cette table rassemble les enregistrements du flux Cars_data ayant des IDs manquants ou ne correspondant pas.

    Cliquez sur OK pour valider et revenir à l'espace de modélisation.

  13. Double-cliquez sur chacun des composants de sortie afin de définir leurs propriétés. Si vous souhaitez créer un nouveau fichier, parcourez votre système jusqu'au dossier de destination et saisissez le nom du fichier avec son extension.

    Cochez la case Include header pour réutiliser les libellés des colonnes du schéma d'entrée dans comme en-tête dans votre fichier de sortie.

Exécuter le Job

  1. Appuyez sur les touches Ctrl+S pour sauvegarder votre Job.

  2. Sauvegardez votre Job et appuyez sur F6 pour exécuter le Job ou passez à l'onglet Run Job et cliquez sur le bouton Run.

    Les fichiers de sortie sont créés et ils contiennent les données définies.