Sélectionner des enregistrements spécifiques à l’aide d’avpath - Cloud

Guide d'utilisation de Talend Cloud Pipeline Designer

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Administration et monitoring > Monitoring de logs
Administration et monitoring > Monitoring des exécutions
Création et développement > Création de Pipelines
Déploiement > Déploiement > Exécution de Pipelines
Gouvernance de données > Filtrage de données
Qualité et préparation de données > Filtrage de données
Qualité et préparation de données > Gestion des jeux de données
Last publication date
2024-02-12

Dans ce scénario, la syntaxe avpath est utilisée pour filtrer les critiques de restaurants en se basant sur l’âge de l’utilisateur ou de l'utilisatrice, les votes et les préférences de niveau de bruit.

Un pipeline nommé 'Filter restaurant review' affiche une source Amazon S3, deux processeurs Filter et une destination Amazon S3.

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source, ici une connexion à un bucket S3. Pour plus d'informations, consultez Créer une connexion.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Téléchargez et extrayez le fichier restaurant_reviews.zip. Il contient les avis concernant les restaurants et les enregistrements imbriqués concernant le restaurant et les utilisateur·trices. Pour plus d'informations, consultez Créer un jeu de données.

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Filter restaurant reviews
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les critiques de restaurants.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Filter au pipeline. Le panneau de Configuration s’affiche.
  6. Donnez un nom significatif au processeur ; with reviews by at least 20 helpful old people, par exemple.
  7. Dans la zone Filter :
    1. Saisissez .reviews{.user.age >= 60 && .user.user_votes.helpful > 20} dans la zone Input, pour obtenir uniquement les critiques saisies par des utilisateurs et des utilisatrices ou utilisatrices de plus de 60 ans ayant au moins 20 votes utiles.
    2. Sélectionnez Count (Total) dans la liste Optionally select a function to apply (Sélectionner une option facultative à appliquer), >= dans la liste Operator (Opérateur) et saisissez 20 dans la liste Value (Valeur), puisque vous souhaitez au moins 20 critiques faites par ces utilisateurs et utilisatrices.
  8. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  9. Cliquez à nouveau sur le bouton + et ajoutez un processeur Filter au pipeline. Le panneau de Configuration s’affiche.
  10. Donnez un nom significatif au processeur, with quiet noise level par exemple.
  11. Dans la zone Filter :
    1. Sélectionnez .business.attributes.noise_level dans la liste Input, car vous souhaitez filtrer les restaurants selon leur niveau de bruit.
    2. Sélectionnez None (Aucune) dans la liste Optionally select a function to apply (Sélectionner une option facultative à appliquer), == dans la liste Operator (Opérateur) et saisissez quiet dans la liste Value (Valeur) puisque vous souhaitez afficher les restaurants silencieux.
  12. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  13. Cliquez sur l'élément ADD DESTINATION du pipeline pour ouvrir le panneau vous permettant de sélectionner le jeu de données qui contiendra les données filtrées.
  14. Donnez un nom significatif à la destination, perfect restaurants for old hipsters par exemple.
  15. (Option) Consultez le dernier processeur Filter pour voir et comparer vos données après l'opération de filtre.
  16. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  17. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution, les données sont filtrées selon les conditions spécifiées à l’aide d’avpath et la sortie est envoyée vers le système cible que vous avez indiqué.