Scénario : Répliquer un flux et trier deux flux identiques - 6.3

Composants Talend Open Studio Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job lisant un flux d'entrée contenant des noms et des états dans un fichier CSV, réplique le flux d'entrée, puis trie les deux flux identiques selon le nom et l'état respectivement et affiche les données triées dans la console.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, un tReplicate, deux tSortRow et deux tLogRow.

  2. Reliez le tFileInputDelimited au tReplicate à l'aide d'un lien Row > Main.

  3. Répétez les étapes ci-dessus afin de connecter le composant tReplicate aux deux tSortRow puis les deux tSortRow aux deux tLogRow (un chacun).

  4. Renommez les composants afin de mieux identifier leur rôle au sein du Job.

Configurer les composants

  1. Double-cliquez sur le tFileInputDelimited pour ouvrir sa vue Basic settings.

  2. Cliquez sur le bouton [...] à côté du champ File name/Stream afin de parcourir votre système jusqu'au fichier duquel vous souhaitez lire le flux d'entrée. Dans cet exemple, le fichier d'entrée se nomme Names&States.csv et contient deux colonnes : name et state.

    name;state
    Andrew Kennedy;Mississippi
    Benjamin Carter;Louisiana
    Benjamin Monroe;West Virginia
    Bill Harrison;Tennessee
    Calvin Grant;Virginia
    Chester Harrison;Rhode Island
    Chester Hoover;Kansas
    Chester Kennedy;Maryland
    Chester Polk;Indiana
    Dwight Nixon;Nevada
    Dwight Roosevelt;Mississippi
    Franklin Grant;Nebraska
  3. Renseignez les champs Header, Footer et Limit selon vos besoins. Dans cet exemple, saisissez 1 dans le champ Header pour ignorer la première ligne du fichier d'entrée.

  4. Cliquez sur Edit schema pour définir la structure des données du flux d'entrée.

  5. Double-cliquez sur le premier tSortRow pour ouvrir sa vue Basic settings.

  6. Dans la table Criteria, cliquez sur le bouton [+] pour ajouter une ligne et configurez les paramètres de tri pour la colonne du schéma à traiter. Pour trier les données d'entrée selon le nom, sélectionnez name pour Schema column. Sélectionnez alpha comme type de tri et asc comme ordre de tri.

    Pour plus d'informations concernant ces paramètres, consultez tSortRow.

  7. Double-cliquez sur le second tSortRow et répétez l'étape ci-dessus pour configurer les paramètres pour la colonne contenant les états.

  8. Dans la vue Basic settings de chaque tLogRow, sélectionnez Table dans la zone Mode pour un meilleur affichage des résultats d'exécution du Job.

Exécuter le Job

  1. Appuyez sur les touches Ctrl+S pour sauvegarder le Job.

  2. Exécutez le Job en appuyant sur F6 ou en cliquant sur le bouton Run de la vue Run.

    Les données triées par nom et les données triées par état sont affichées dans la console.