Scénario : Remplacement multiple et filtrage de colonnes - 6.1

Composants Talend Open Studio Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Le Job suivant recherche et remplace différentes coquilles et fautes dans un fichier .CSV puis filtre une colonne avant de générer en sortie un nouveau fichier .CSV contenant les données modifiées.

  • Cliquez et déposez les composants suivants dans l'espace de modélisation graphique : tFileInputDelimited, tReplace, tFilterColumn et tFileOutputDelimited.

  • Connectez les composants à l'aide de liens de type Main Row via un clic-droit sur chaque composant.

  • Sélectionnez le composant tFileInputDelimited et paramétrez les propriétés du flux d'entrée.

  • Le fichier est un simple fichier .csv stocké localement. Ainsi, dans le champ Filepath, renseignez l chemin d'accès au fichier. Dans le champ Row Separator, renseignez le séparateur de lignes, ici le retour chariot. Dans le champ Field Separator, renseignez le séparateur de champs, ici un point virgule. Dans cet exemple, l'en tête (Header) est le nom des colonnes, et il n'y a ni pied de page (Footer) ni de nombre limite de lignes à traiter (Limit).

  • Le fichier contient des caractères tels que : *t,$,. ou encore Nikson que l'on veut changer en Nixon, et streat, que l'on veut changer en Street.

  • Dans le champ Schema, sélectionnez aussi l'option Built-in. Le schéma est composé de quatre colonnes de différents types : chaînes de caractères (string) ou de nombres décimaux (float).

  • Sélectionnez le composant tReplace pour paramétrer les propriétés des Rechercher/Remplacer.

  • Le schéma peut être synchronisé à partir du flux d'entrée.

  • Cochez la case Simple mode car les paramètres de recherche peuvent être facilement définis sans avoir recours aux expressions régulières.

  • Cliquez sur le signe [+] pour ajouter des lignes aux tableaux des paramètres.

  • En premier paramètre, sélectionnez amount dans la colonne Input column. Dans la colonne Search, cherchez tous les points et dans la colonne Replace indiquez la valeur de remplacement, ici la virgule. Les valeurs doivent être mises entre guillemets.

  • En deuxième paramètre, sélectionnez Street dans la colonne Input column. Dans la colonne Search, cherchez la chaîne de caractères streat. Dans la colonne Replace, renseignez la valeur de remplacement, ici Street.

  • En troisième paramètre, sélectionnez à nouveau Amount dans la colonne Input column, saisissez $ dans la colonne Search et £ dans la colonne Replace.

  • En quatrième paramètre, sélectionnez Name dans la colonne Input column. Dans le champ Search, saissisez Nikson dans la colonne Search et Nixon dans la colonne Replace.

  • En cinquième paramètre, sélectionnez Firstname dans la colonne Input column. Dans le champ Search, saisissez la chaîne de caractère *t, et ne mettez rien entre guillemets.

  • L'option Advanced mode n'est pas utilisée pour ce scénario.

  • Sélectionnez le composant suivant : tFilterColumn.

  • Le composant tFilterColumn contient un éditeur de schéma permettant de créer un schéma de sortie basé sur le nom des colonnes du schéma d'entrée. Dans cet exemple, ajoutez une nouvelle colonne empty_field et changez l'ordre des colonnes pour obtenir le schéma suivant : empty_field, Firstname, Name, Street, Amount.

  • Cliquez sur OK pour valider.

  • Double-cliquez sur le tFileOutputDelimited afin d'afficher sa vue Component.

  • Dans le champ Schema, sélectionnez l'option Built-in et cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.

  • Enregistrez le Job et exécutez-le en appuyant sur F6.

La première colonne est vide, les caractères parasites ont été supprimés des autres colonnes, et Nikson a été remplacé par Nixon. La colonne Street a été déplacée, les décimales sont dorénavant séparées par une virgule et le symbole monétaire a été changé.