Scénario: Mapper les données à l'aide d'une jointure implicite simple - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Dans ce scénario, un composant tELTGreenplumMap est utilisé afin de récupérer les données de la table source employee_by_statecode, comparer sa colonnestatecode à la table statecode et enfin mapper les colonnes désirées à partir des deux tables vers la table de sortie employee_by_state.

Avant l'exécution du Job, les trois tables employee_by_statecode, statecode et employee_by_state ressemblent à ceci :

Déposer les composants

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tGreenplumConnection, deux tELTGreenplumInput, un tELTGreenplumMap, untELTGreenplumOutput, un tGreenplumCommit, untGreenplumInput et un tLogRow.

  2. Renommez le composant tGreenplumConnection en connect_to_greenplum_host, les deux tELTGreenplumInput en employee+statecode et statecode, le tELTGreenplumMap en match+map, le tELTGreenplumOutput en map_data_output, le tGreenplumCommit en commit_to_host, le tGreenplumInput en read_map_output_table et le tLogRow en show_map_data

  3. Reliez le composant tGreenplumConnection au tELTGreenplumMap à l'aide d'un lien OnSubjobOk.

    Reliez le composant tELTGreenplumMap au tGreenplumCommit à l'aide d'un lien OnSubjobOk.

    Reliez le composant tGreenplumCommit au tGreenplumInput à l'aide d'un lien OnSubjobOk.

  4. Reliez le composant tGreenplumInput au tLogRow à l'aide d'une connexion Row > Main.

    Les deux tELTGreenplumInput et le composant tELTGreenplumOutput seront connectés plus tard au tELTGreenplumMap, une fois les tables correspondantes définies.

Configurer les composants

  1. Double-cliquez sur le composant tGreenplumConnection pour ouvrir sa vue Basic settings.

    Dans les champs Host et Port, saisissez les variables de contexte pour le serveur Greenplum.

    Dans le champ Database, saisissez la variable de contexte pour la base de données Greenplum.

    Dans les champs Username et Password, saisissez les variables de contexte pour les paramètres d'authentification.

    Pour plus d'informations sur les variables de contexte, consultez le Guide utilisateur du Studio Talend.

  2. Double-cliquez sur employee+statecode pour ouvrir sa vue Basic settings dans l'onglet Component.

    Dans le champ Default table name, saisissez le nom de la table source, nommée employee_by_statecode.

    Cliquez sur le bouton [...] près du champ Edit schema pour ouvrir l'éditeur de schéma.

    Cliquez sur le bouton [+] pour ajouter trois colonnes et appelez-les id, name et statecode, avec pour type respectivement INT4, VARCHAR, et INT4.

    Cliquez sur OK pour fermer l'éditeur de schéma.

    Reliez le employee+statecode au tELTGreenplumMap en utilisant le composant de sortie employee_by_statecode.

  3. Double-cliquez sur le statecode pour ouvrir sa vue Basic settings dans l'onglet Component.

    Dans le champ Default table name, saisissez le nom de la table, ici statecode.

  4. Cliquez sur le bouton [...] près du champ Edit schema pour ouvrir l'éditeur de schéma.

    Cliquez sur le bouton [+] pour ajouter deux colonnes et appelez-les state et statecode, avec pour type respectivement VARCHAR et INT4.

    Cliquez sur OK pour fermer l'éditeur de schéma.

    Reliez le statecode au tELTGreenplumMap en utilisant la sortie statecode.

  5. Cliquez le composant tELTGreenplumMap pour ouvrir sa vue Basic settings dans l'onglet Component.

    Cochez la case Use an existing connection.

  6. Cliquez sur le bouton [...] près du champ ELT Greenplum Map Editor pour ouvrir l'éditeur de mapping.

  7. Cliquez sur le bouton [+] en haut à gauche pour ouvrir la fenêtre de sélection de table.

    Sélectionnez les tables employee_by_statecode et statecode dans la liste et cliquez sur Ok.

    Les tables apparaissent sur le panneau gauche de l'éditeur.

  8. Dans le coin en haut à droite, cliquez sur le bouton [+] pour ajouter la table de sortie nommée employee_by_state.

    Cliquez sur OK pour fermer l'éditeur de map.

  9. Double-cliquez sur le tELTGreenplumOutput pour ouvrir sa vue Basic settings dans l'onglet Component.

    Dans le champ Default table name, saisissez le nom de la table de sortie, ici employee_by_state.

  10. Cliquez sur le bouton [...] près du champ Edit schema pour ouvrir l'éditeur de schéma.

    Cliquez sur le bouton [+] pour ajouter trois colonnes et appelez-les respectivement id, name et state, avec pour type respectivement INT4, VARCHAR, et VARCHAR .

    Cliquez sur OK pour fermer l'éditeur de schéma.

    Reliez le composant tELTGreenplumMap au tELTGreenplumOutput en utilisant la table de sortie employee_by_state.

    Cliquez sur OK dans la fenêtre pop-up pour récupérer le schéma du tELTGreenplumOutput.

    La table de sortie employee_by_state partage maintenant le même schéma que celui du tELTGreenplumOutput.

  11. Double-cliquez sur le composant tELTGreenplumMap pour ouvrir l'éditeur de map.

    Déposez la colonne statecode de la table employee_by_statecode dans la colonne du même nom, dans la table statecode, afin de chercher les enregistrements des deux tables ayant les mêmes valeurs statecode.

    Déposez les colonnes id et name de la table employee_by_statecode ainsi que la colonne statecode de la table statecode dans les colonnes de même nom dans la table de sortie employee_by_state.

    Cliquez sur OK pour fermer l'éditeur de mapping.

  12. Double-cliquez sur le tGreenplumInput pour ouvrir sa vue Basic settings dans l'onglet Component.

    Cochez la case Use an existing connection.

    Dans le champ Table name, saisissez le nom de la table source, appelée employee_by_state.

    Dans le champ Query, saisissez la commande "SELECT * FROM \"employee_by_state\"".

  13. Double-cliquez sur le composant tLogRow pour ouvrir sa vue Basic settings dans l'onglet Component.

    Dans la zone Mode, sélectionnez l'option Table (print values in cells of a table) pour une meilleure lisibilité.

Exécuter le Job

  1. Appuyez sur Ctrl+S pour sauvegarder votre Job.

  2. Appuyez sur F6 pour exécuter le Job.

    Comme affiché ci-dessus, les données sur les employés ont été écrites dans la table employee_by_state, qui présente des informations géographiques concernant les employés.