Scénario 2 : Mapping de données avec rejet Inner join - 6.1

Composants Talend Open Studio Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario, basé sur le scénario 1, requiert l'ajout d'un fichier d'entrée contenant les informations sur les revendeurs, ainsi que l'ajout de champs supplémentaires dans la table de sortie principale. De plus, deux filtres sont ajoutés sur les jointures Inner Join afin de récupérer les rejets spécifiques.

Construire le Job

  1. Déposez un tFileInputDelimited et un tFileOutputDelimited dans l'espace de modélisation graphique et renommez les composants, respectivement Resellers et No_Reseller_ID.

  2. Connectez le tFileInputDelimited au tMap à l'aide d'un lien Row > Main et renommez le lien Resellers_data.

  3. Connectez le tMap au nouveau tFileOutputDelimited à l'aide d'un lien Row > New Output. Renommez le lien Reject_ResellerID.

Configurer les composants

  1. Double-cliquez sur le composant Resellers pour définir ses propriétés dans la vue Basic settings.

  2. Sélectionnez Repository dans la liste Property Type et sélectionnez le schéma resellers, dans la boîte de dialogue [Repository Content]. Les autres champs sont automatiquement renseignés.

    Note

    Dans ce scénario, les schémas d'entrée sont stockés sous le nœud Metadata du Repository afin de les retrouver facilement. Pour plus d'informations concernant la création de métadonnées dans le Repository, consultez le Guide utilisateur du Studio Talend.

  3. Double-cliquez sur le composant tMap pour ouvrir le Map Editor. Vous remarquerez que le schéma est automatiquement ajouté à la zone Input des schémas d'entrée.

  4. Créez une jointure entre le flux d'entrée principal et le nouveau flux d'entrée en déposant la colonne ID_Reseller de la table Cars_data dans la colonne ID_Reseller de la table Resellers_data.

  5. Cliquez sur le bouton tMap settings en haut de la table Resellers_data et sélectionnez Inner Join comme modèle de jointure (Join Model).

  6. Glissez-déposez toutes les colonnes de la table Resellers_data sauf ID_Reseller dans la table de sortie principale, Insured.

    Note

    Lorsque deux Inner Joins sont définis, vous devez soit définir deux tables de rejet inner join pour différencier les deux rejets, soit rassembler les deux rejets inner join dans une seule et même table de sortie, s'il n'y a qu'une seule sortie.

  7. Dans la zone de sortie Output, cliquez sur le signe [+] pour ajouter une nouvelle table de sortie et nommez-la Reject_ResellerID.

  8. Déposez toutes les colonnes de la table Cars_data dans la table Reject_ResellerID.

  9. Cliquez sur le bouton tMap Settings puis sélectionnez true pour Catch lookup inner join reject afin de définir la dernière table comme étant la table du flux de sortie de rejets Inner Join. Si la jointure Inner Join ne peut être établie pour une entrée, les informations concernant les voitures correspondantes seront rassemblées dans le flux de sortie.

  10. Appliquez maintenant un filtre sur chacune des sorties de rejet Inner Join afin de distinguer les deux types de rejets.

    Dans la première table de rejet (Reject_OwnerID), cliquez sur la flèche dotée d'un signe [+] pour ajouter une ligne de filtre et renseignez ce champ avec la formule suivante pour ne recueillir que les rejets liés au champ OwnerID non défini : Owners_data.ID_Owner==null

  11. Dans la seconde table de rejet Inner Join (Reject_ResellerID), renouvelez l'opération et utilisez la formule suivante : Resellers_data.ID_Reseller==null

    Cliquez sur OK pour enregistrer les changements et fermer le Mapper.

  12. Double-cliquez sur le composant No_Reseller_ID pour afficher sa vue Basic settings.

    Dans ce scénario, spécifiez simplement le chemin d'accès au fichier de sortie et cochez la case Include Header. Laissez les autres paramètres tels qu'ils sont.

  13. Pour comprendre le fonctionnement du Mapper, dans ce scénario, retirez du fichier Resellers.csv les lignes correspondant aux Reseller ID 5 et 8.

Exécuter le Job

  1. Appuyez sur les touches Ctrl+S pour sauvegarder votre Job.

  2. Exécutez le Job via la touche F6 du clavier, ou à partir de la vue Run.

    Les quatre fichiers de sortie sont tous créés dans le dossier défini dans les propriétés de la vue Component.

    Remarquez que dans le fichier de rejet lié à l'Inner Join, NoResellerID.csv, le champ ID_Owners correspond aux entrées du fichier Cars dont le Reseller ID est égal à 5 et 8, manquant dans le fichier Resellers.csv.