tReplicate - 6.1

Composants Talend Open Studio Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Fonction

Le composant tReplicate duplique le schéma entrant en deux flux identiques.

Objectif

Ce composant permet d'effectuer différentes opérations sur le même schéma.

Propriétés du tReplicate

Famille de composant

Orchestration

 

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant n'est pas un composant de début (fond vert) puisqu'il requiert un composant d'entrée et un composant de sortie.

Connections

Liens de sortie (de ce composant à un autre) :

Row : Main

Trigger : Run if, OnComponentOk, OnComponentError.

Liens d'entrée (d'un autre composant à un celui-ci) :

Row : Main, Reject.

Pour plus d'informations concernant les liens, consultez le Guide utilisateur du Studio Talend.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario : Répliquer un flux et trier deux flux identiques

Ce scénario décrit un Job lisant un flux d'entrée contenant des noms et des états dans un fichier CSV, réplique le flux d'entrée, puis trie les deux flux identiques selon le nom et l'état respectivement et affiche les données triées dans la console.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, un tReplicate, deux tSortRow et deux tLogRow.

  2. Reliez le tFileInputDelimited au tReplicate à l'aide d'un lien Row > Main.

  3. Répétez les étapes ci-dessus afin de connecter le composant tReplicate aux deux tSortRow puis les deux tSortRow aux deux tLogRow (un chacun).

  4. Renommez les composants afin de mieux identifier leur rôle au sein du Job.

Configurer les composants

  1. Double-cliquez sur le tFileInputDelimited pour ouvrir sa vue Basic settings.

  2. Cliquez sur le bouton [...] à côté du champ File name/Stream afin de parcourir votre système jusqu'au fichier duquel vous souhaitez lire le flux d'entrée. Dans cet exemple, le fichier d'entrée se nomme Names&States.csv et contient deux colonnes : name et state.

    name;state
    Andrew Kennedy;Mississippi
    Benjamin Carter;Louisiana
    Benjamin Monroe;West Virginia
    Bill Harrison;Tennessee
    Calvin Grant;Virginia
    Chester Harrison;Rhode Island
    Chester Hoover;Kansas
    Chester Kennedy;Maryland
    Chester Polk;Indiana
    Dwight Nixon;Nevada
    Dwight Roosevelt;Mississippi
    Franklin Grant;Nebraska
  3. Renseignez les champs Header, Footer et Limit selon vos besoins. Dans cet exemple, saisissez 1 dans le champ Header pour ignorer la première ligne du fichier d'entrée.

  4. Cliquez sur Edit schema pour définir la structure des données du flux d'entrée.

  5. Double-cliquez sur le premier tSortRow pour ouvrir sa vue Basic settings.

  6. Dans la table Criteria, cliquez sur le bouton [+] pour ajouter une ligne et configurez les paramètres de tri pour la colonne du schéma à traiter. Pour trier les données d'entrée selon le nom, sélectionnez name pour Schema column. Sélectionnez alpha comme type de tri et asc comme ordre de tri.

    Pour plus d'informations concernant ces paramètres, consultez tSortRow.

  7. Double-cliquez sur le second tSortRow et répétez l'étape ci-dessus pour configurer les paramètres pour la colonne contenant les états.

  8. Dans la vue Basic settings de chaque tLogRow, sélectionnez Table dans la zone Mode pour un meilleur affichage des résultats d'exécution du Job.

Exécuter le Job

  1. Appuyez sur les touches Ctrl+S pour sauvegarder le Job.

  2. Exécutez le Job en appuyant sur F6 ou en cliquant sur le bouton Run de la vue Run.

    Les données triées par nom et les données triées par état sont affichées dans la console.