Scénario : Filtrer des lignes de données selon une condition et sauvegarder le résultat dans un fichier local - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job à quatre composants filtrant une liste de clients afin de trouver les clients d'un pays spécifique et sauvegardant la liste qui en résulte dans un fichier local. Avant de filtrer les données d'entrée, les entrées en doublon sont supprimées de la liste.

Le fichier d'entrée contient trois colonnes : Name, Country et Age et contient des doublons, comme montré ci-dessous :

Mario;PuertoRico;49
Mike;USA;22
Ricky;PuertoRico;37
Silvia;Spain;20
Billy;Canada;21
Ricky;PuertoRico;37
Romeo;UK;19
Natasha;Russia;25
Juan;Cuba;23
Bob;Jamaica;55
Mario;PuertoRico;49

Déposer et relier les composants

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tPigLoad, un tPigDistinct, un tPigFilterRow et un tPigStoreResult.

  2. Cliquez-droit sur le tPigLoad, sélectionnez Row > Pig Combine dans le menu contextuel et cliquez sur le tPigDistinct pour relier ces deux composants.

  3. Répétez cette opération pour relier le tPigDistinct au tPigFilterRow et le tPigFilterRow au tPigStoreResult à l'aide de liens Row > Pig Combine pour former une chaîne Pig.

Configurer les composants

Charger les données d'entrée et supprimer les doublons

  1. Double-cliquez sur le tPigload afin d'ouvrir sa vue Basic settings.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema].

  3. Cliquez sur le bouton [+] pour ajouter trois colonnes, selon la structure du fichier d'entrée : Name (de type String), Country (String) et Age (Integer) puis cliquez OK pour sauvegarder la configuration et fermer la boîte de dialogue.

  4. Dans la zone Mode, sélectionnez Local.

  5. Dans le champ Input file URI, renseignez le chemin d'accès complet au fichier d'entrée.

  6. Sélectionnez PigStorage dans la liste Load function et laissez les autres paramètres tels qu'ils sont.

  7. Double-cliquez sur le tPigDistinct pour ouvrir sa vue Basic settings. Cliquez sur le bouton Sync columns pour vous assurer que la structure du schéma d'entrée a bien été propagée depuis le composant précédent.

    Ce composant supprime les doublons du flux d'entrée.

Configurer le filtre

  1. Double-cliquez sur le tPigFilterRow afin d'ouvrir sa vue Basic settings.

  2. Cliquez sur Sync columns pour récupérer la structure du schéma du composant précédent.

  3. Cochez la case Use advanced filter et saisissez, dans le champ Filter, l'expression :

    "Country matches 'PuertoRico'"
    

    Cette expression de filtre sélectionne les ligne de données contenant "PuertoRico" dans la colonne Country.

Configurer le fichier de sortie

  1. Double-cliquez sur le composant tPigStoreResult pour ouvrir sa vue Basic settings.

  2. Cliquez sur Sync columns pour récupérer la structure du schéma du composant précédent.

  3. Dans le champ Result file, renseignez le chemin d'accès au fichier de résultat.

  4. Si le fichier cible existe déjà, cochez la case Remove result directory if exists.

  5. Sélectionnez PigStorage dans la liste Store function et laissez les autres paramètres tels qu'il sont.

Sauvegarder et exécuter le Job

  1. Sauvegardez votre Job en appuyant sur les touches Ctrl+S.

  2. Appuyez sur F6 ou cliquez sur le bouton Run de la vue Run pour exécuter le Job.

Le fichier de résultat contient les informations des clients du pays spécifié.