Scénario : Effectuer une jointure sur deux fichiers à partir d'une correspondance exacte et sauvegarder le résultat dans un fichier local - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job à quatre composants combinant les données d'un fichier d'entrée et d'un fichier de référence correspondant à une clé de jointure donnée, supprime les colonnes indésirables puis sauvegarde le résultat final dans un fichier local.

Le fichier d'entrée principal contient les informations concernant des personnes : ID, prénom, nom de famille, ID de groupe et salaire, comme ci-dessous :

1;Woodrow;Johnson;3;1013.39
2;Millard;Monroe;2;8077.59
3;Calvin;Eisenhower;3;6866.88
4;Lyndon;Wilson;3;5726.28
5;Ronald;Garfield;2;4158.58
6;Rutherford;Buchanan;3;2897.00
7;Calvin;Coolidge;1;6650.66
8;Ulysses;Roosevelt;2;7854.78
9;Grover;Tyler;1;5226.88
10;Bill;Tyler;2;8964.66

Le fichier de référence contient uniquement les informations des IDs de groupes ainsi que le nom des groupes :

1;group_A
2;group_B

Déposer et relier les composants

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : tPigLoad, tPigJoin, tPigFilterColumns et tPigStoreResult.

  2. Connectez ces composants à l'aide de liens Row > Pig Combine.

Configurer les composants

Charger le fichier d'entrée principal

  1. Double-cliquez sur le tPigLoad pour ouvrir sa vue Basic settings.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema].

  3. Cliquez sur le bouton [+] pour ajouter des colonnes. Renommez-les et définissez leur type selon la structure du fichier d'entrée. Dans cet exemple, le schéma d'entrée contient cinq colonnes : id (integer), firstName (string), lastName (string), groupId (integer) et salary (double).

    Cliquez sur OK pour valider et fermer la boîte de dialogue.

  4. Cliquez sur Local dans la zone Mode.

  5. Sélectionnez PigStorage dans la liste Load function.

  6. Renseignez le champ Input file URI avec le chemin d'accès complet au fichier d'entrée et laissez les autres paramètres tels qu'ils sont.

Charger le fichier de référence et configurer la jointure Inner Join

  1. Double-cliquez sur le tPigJoin pour ouvrir sa vue Basic settings.

  2. Cliquez sur le bouton [...] du schéma principal pour ouvrir la boîte de dialogue [Schema].

  3. Vérifiez que le schéma d'entrée a bien été récupéré du composant précédent. Si nécessaire, cliquez sur le bouton [->>] pour copier toutes les colonnes du schéma d'entrée au schéma de sortie.

  4. Cliquez sur le bouton [+] sous la table de sortie pour ajouter de nouvelles colonnes, selon la structure des données du fichier de référence, groupId_ref (integer) et groupName (string) dans cet exemple. Cliquez sur OK pour fermer la boîte de dialogue.

  5. Cliquez sur le bouton [...] du schéma du flux de référence pour ouvrir la boîte de dialogue [Schema].

  6. Cliquez sur le bouton [+] sous la table de sortie pour ajouter : groupId_ref (integer) et groupName (string) puis cliquez sur OK pour fermer la boîte de dialogue.

  7. Dans le champ Filename, spécifiez le chemin d'accès complet au fichier de référence.

  8. Cliquez sur le bouton [+] sous la table Join key pour ajouter une ligne et sélectionnez groupId et groupId_ref, respectivement dans les liste Input et Lookup afin de mettre en correspondance les données du flux d'entrée principal et celles du flux de référence, selon l'ID du groupe.

  9. Dans la liste Join Mode, sélectionnez inner-join.

Définir le schéma de sortie final et le fichier de sortie

  1. Double-cliquez sur le composant tPigFilterColumns pour ouvrir sa vue Basic settings.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema].

  3. Dans le schéma d'entrée, sélectionnez les colonnes à inclure dans le fichier de résultat en cliquant sur celles-ci une par une en maintenant la touche Ctrl enfoncée. Cliquez sur le bouton [->] pour les copier dans le schéma de sortie. Cliquez sur OK pour valider le schéma et fermer la boîte de dialogue.

    Dans cet exemple, le fichier de résultat doit inclure toutes les informations, sauf l'ID des groupes.

  4. Double-cliquez sur le tPigStoreResult pour afficher sa vue Basic settings.

  5. Cliquez sur Sync columns afin de récupérer la structure du schéma du composant précédent.

  6. Dans le champ Result file, saisissez le chemin d'accès complet au fichier de résultat et cochez la case Remove result file directory if exists.

  7. Sélectionnez PigStorage dans la liste Store function et laissez les autres paramètres tels qu'ils sont.

Sauvegarder et exécuter le Job

  1. Appuyez sur les touches Ctrl+S pour sauvegarder votre Job.

  2. Appuyez sur F6 ou cliquez sur le bouton Run dans la vue Run pour exécuter le Job.

    Le fichier de résultat contient toutes les informations relatives aux personnes des groupes A et B, sauf l'ID des groupes.