tReplace - 6.3

Composants Talend Open Studio Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Fonction

Le composant tReplace effectue un Rechercher/Remplacer dans les colonnes d'entrée spécifiées.

Objectif

Ce composant permet de nettoyer tous les fichiers avant traitement.

Propriétés du tReplace

Famille de composant

Processing

 

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Deux colonnes en lecture seule sont automatiquement ajoutées au schéma de sortie : Value et Match.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Simple Mode Search / Replace

Cliquez sur le bouton [+] pour ajouter autant de conditions que vous le souhaitez. Les conditions sont exécutées l'une après l'autre pour chaque ligne.

Input column : Sélectionnez la colonne du schéma sur laquelle effectuer le Rechercher/Remplacer.

Search : Saisissez la valeur à chercher dans la colonne d'entrée.

Replace with : Saisissez la valeur de remplacement.

Whole word : Cochez cette case si la valeur recherchée constitue un mot entier.

Case sensitive : Cochez cette case pour tenir compte de la casse.

Notez que vous ne pouvez pas utiliser d'expression régulière dans ces colonnes.

 

Use advanced mode

Cochez cette case si vous souhaitez utiliser des expressions régulières.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable After et retourne un entier.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant n'est pas un composant de début puisqu'il requiert un flux de données. Il requiert aussi un composant de sortie.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario : Remplacement multiple et filtrage de colonnes

Le Job suivant recherche et remplace différentes coquilles et fautes dans un fichier .CSV puis filtre une colonne avant de générer en sortie un nouveau fichier .CSV contenant les données modifiées.

  • Cliquez et déposez les composants suivants dans l'espace de modélisation graphique : tFileInputDelimited, tReplace, tFilterColumn et tFileOutputDelimited.

  • Connectez les composants à l'aide de liens de type Main Row via un clic-droit sur chaque composant.

  • Sélectionnez le composant tFileInputDelimited et paramétrez les propriétés du flux d'entrée.

  • Le fichier est un simple fichier .csv stocké localement. Ainsi, dans le champ Filepath, renseignez l chemin d'accès au fichier. Dans le champ Row Separator, renseignez le séparateur de lignes, ici le retour chariot. Dans le champ Field Separator, renseignez le séparateur de champs, ici un point virgule. Dans cet exemple, l'en tête (Header) est le nom des colonnes, et il n'y a ni pied de page (Footer) ni de nombre limite de lignes à traiter (Limit).

  • Le fichier contient des caractères tels que : *t,$,. ou encore Nikson que l'on veut changer en Nixon, et streat, que l'on veut changer en Street.

  • Dans le champ Schema, sélectionnez aussi l'option Built-in. Le schéma est composé de quatre colonnes de différents types : chaînes de caractères (string) ou de nombres décimaux (float).

  • Sélectionnez le composant tReplace pour paramétrer les propriétés des Rechercher/Remplacer.

  • Le schéma peut être synchronisé à partir du flux d'entrée.

  • Cochez la case Simple mode car les paramètres de recherche peuvent être facilement définis sans avoir recours aux expressions régulières.

  • Cliquez sur le signe [+] pour ajouter des lignes aux tableaux des paramètres.

  • En premier paramètre, sélectionnez amount dans la colonne Input column. Dans la colonne Search, cherchez tous les points et dans la colonne Replace indiquez la valeur de remplacement, ici la virgule. Les valeurs doivent être mises entre guillemets.

  • En deuxième paramètre, sélectionnez Street dans la colonne Input column. Dans la colonne Search, cherchez la chaîne de caractères streat. Dans la colonne Replace, renseignez la valeur de remplacement, ici Street.

  • En troisième paramètre, sélectionnez à nouveau Amount dans la colonne Input column, saisissez $ dans la colonne Search et £ dans la colonne Replace.

  • En quatrième paramètre, sélectionnez Name dans la colonne Input column. Dans le champ Search, saissisez Nikson dans la colonne Search et Nixon dans la colonne Replace.

  • En cinquième paramètre, sélectionnez Firstname dans la colonne Input column. Dans le champ Search, saisissez la chaîne de caractère *t, et ne mettez rien entre guillemets.

  • L'option Advanced mode n'est pas utilisée pour ce scénario.

  • Sélectionnez le composant suivant : tFilterColumn.

  • Le composant tFilterColumn contient un éditeur de schéma permettant de créer un schéma de sortie basé sur le nom des colonnes du schéma d'entrée. Dans cet exemple, ajoutez une nouvelle colonne empty_field et changez l'ordre des colonnes pour obtenir le schéma suivant : empty_field, Firstname, Name, Street, Amount.

  • Cliquez sur OK pour valider.

  • Double-cliquez sur le tFileOutputDelimited afin d'afficher sa vue Component.

  • Dans le champ Schema, sélectionnez l'option Built-in et cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.

  • Enregistrez le Job et exécutez-le en appuyant sur F6.

La première colonne est vide, les caractères parasites ont été supprimés des autres colonnes, et Nikson a été remplacé par Nixon. La colonne Street a été déplacée, les décimales sont dorénavant séparées par une virgule et le symbole monétaire a été changé.