Avant de commencer
Vous avez précédemment créé une connexion au système stockant vos données source.
Ici, une connexion à une base de données.
Vous avez précédemment ajouté le jeu de données contenant vos données source.
Ici, une table de clients avec le champ de date d'inscription que vous pouvez trouver joint à ce document (téléchargez le fichier filter-python-customers.json depuis l'onglet Downloads à gauche de cette page).
Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.
Ici, les fichiers sont stockés dans HDFS.
Procédure
-
Cliquez sur ADD PIPELINE dans la page Pipelines. Votre nouveau pipeline s’ouvre.
- Donnez-lui un nom significatif.
Exemple
Filter on Registration and Revenue
- Cliquez sur ADD SOURCE pour ouvrir le panneau permettant de sélectionner vos données source, ici une liste de clients, stockée dans une base de données.
Exemple
-
Sélectionnez votre jeu de données et cliquez sur SELECT pour l’ajouter au pipeline.
Renommez-le si nécessaire.
- Cliquez sur
et ajoutez un processeur Filter au pipeline. Le panneau de Configuration s’affiche.
- Donnez un nom significatif au processeur.
Exemple
customers registered in 2000
- Dans la zone Filter :
-
Sélectionnez .RegistrationDate dans la liste Input,pour filtrer les clients en se basant sur cette valeur.
-
Sélectionnez NONE dans la liste Optionally select a function to apply, car vous ne souhaitez pas appliquer de fonction tout en filtrant les enregistrements.
- Sélectionnez CONTAINS dans la liste Operator et saisissez 2000 dans la liste Value, puisque vous souhaitez filtrer les clients dont la date d'inscription contient l'année 2000.
Vous pouvez utiliser la syntaxe avpath dans cette zone.
-
Cliquez sur SAVE pour sauvegarder votre configuration.
- Cliquez sur
et ajoutez un autre processeur Filter au pipeline. Le panneau de Configuration s’affiche.
- Donnez un nom significatif au processeur.
Exemple
customers with revenue > 90000
- Dans la zone Filter :
-
Sélectionnez .Revenue dans la liste Input, pour filtrer les clients en se basant sur cette valeur.
-
Sélectionnez NONE dans la liste Optionally select a function to apply, car vous ne souhaitez pas appliquer de fonction tout en filtrant les enregistrements.
- Sélectionnez > dans la liste Operator et saisissez 90000 dans la liste Value, puisque vous souhaitez filtrer les clients ayant un revenu supérieur à 90000.
-
Cliquez sur SAVE pour sauvegarder votre configuration.
-
Cliquez sur le bouton
à côté du premier processeur Filter pour ajouter et sélectionner le jeu de données qui contiendra les données que ne répondent pas aux critères de filtre.
- Donnez un nom significatif à la Destination.
Exemple
other registration date
-
Cliquez sur l'élément ADD DESTINATION près du processeur Filter et sélectionnez le jeu de données qui contiendra les données ne correspondant pas aux critères de filtre.
Renommez-le si nécessaire.
- Cliquez sur le bouton
à côté du second processeur Filter et sélectionnez le jeu de données qui contiendra vos données rejetées.
- Donnez un nom significatif à la Destination.
Exemple
other customers
-
(Facultatif) Consultez l'aperçu du processeur Filter pour voir les données après l'opération de filtre.
-
Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
-
Cliquez sur l'icône d'exécution
pour exécuter votre pipeline.
Résultats
Votre pipeline est en cours d’exécution, les données sont filtrées selon les conditions spécifiées et la sortie est envoyée vers le système cible que vous avez indiqué.