Création d'un script de Job pour filtrer des enregistrements de données - 6.5

Guide de référence des scripts de Jobs Talend

EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
Talend CommandLine
task
Création et développement > Création de Jobs
Cet exemple explique comment écrire un script de Job pour définir un Job qui lira un fichier CSV et qui filtrera les enregistrements de données selon des conditions données. Le Job affichera ensuite le résumé des informations : le nombre total d'enregistrements lus à partir du fichier source, le nombre d'enregistrements passant le filtre (acceptés) et le nombre d'enregistrements rejetés.

Le Job va contenir les composants suivants :

  • un composant tFileInputDelimited pour lire le fichier CSV source contenant des informations sur des personnes. Le fichier source contient cinq colonnes, présentées comme suit :

    name;gender;age;city;marriageStatus
    Van Buren;M;73;Chicago;married
    Adams;M;40;Albany;single
    Jefferson;F;66;New York;married
    Adams;M;9;Albany;-
    Jefferson;M;30;Chicago;single
    Carter;F;26;Chicago;married
    Harrison;M;40;New York;married
    Roosevelt;F;15;Chicago;
    Monroe;M;8;Boston;-
    Arthur;M;20;Albany;married
    Pierce;M;18;New York;-
    Quincy;F;83;Albany;married
    McKinley;M;70;Boston;married
    Coolidge;M;4;Chicago;-
    Monroe;M;60;Chicago;single
    ----- end of file --------
  • un composant tReplicate, pour dupliquer les données d'entrée en deux flux de sortie, dont un affiché dans la console comme données non traitées et l'autre traité par un composant filtrant les colonnes.

  • un composant tFilterColumns, pour supprimer la ou les colonnes souhaitées, marriageStatus.

  • un composant tFilterRow, pour filtrer les deux tables de sortie des données :

    • une table liste tous les hommes âgés entre 10 et 80 ans dont le nom fait moins de neuf caractères.

    • l'autre table liste tous les enregistrements rejetés et affiche un message d'erreur expliquant la raison du rejet de chaque enregistrement.

  • trois composants tLogRow : le premier pour afficher les données non traitées, le deuxième pour afficher les enregistrements acceptés et le troisième pour afficher les enregistrements rejetés et les messages d'erreurs correspondants.

  • un composant tJava, pour afficher le résumé des informations.

La procédure présentée ci-dessous explique comment écrire ce script de Job dans l'éditeur de scripts de Jobs, en commençant par l'ajout des composants requis. Pour plus d'informations concernant la création d'un script de Job vide, consultez Créer un script de Job.