Utiliser des variables de contexte pour filtrer différentes données lors de l'exécution - Cloud

Guide d'utilisation de Talend Cloud Pipeline Designer

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Administration et monitoring > Monitoring de logs
Administration et monitoring > Monitoring des exécutions
Création et développement > Création de Pipelines
Déploiement > Déploiement > Exécution de Pipelines
Gouvernance de données > Filtrage de données
Qualité et préparation de données > Filtrage de données
Qualité et préparation de données > Gestion des jeux de données
Last publication date
2024-02-12

Dans ce scénario, une variable de contexte est ajoutée pour écraser la valeur utilisée pour filtrer les données utilisateur·trices lors de l'exécution.

Un pipeline nommé 'Filter user data with context variables' affiche un jeu de données de test comme source du pipeline, un processeur Filter avec des variables de contexte et un autre jeu de données de test comme destination du pipeline.

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source, ici une connexion Test.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Des données relatives à des nombre d'utilisateurs et d'utilisatrices connecté·e·s, notamment des noms, entreprises, adresses e-mail, soldes de comptes etc. Pour plus d'informations, consultez Créer un jeu de données de test.

  • Vous avez également créé le jeu de données de test de destination pour stocker la sortie des logs.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Filter user data with context variables
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les données utilisateurs·rices.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Filter au pipeline. Le panneau de Configuration s’affiche.
  6. Donnez un nom significatif au processeur, filter on balances >= $3,000 par exemple.
  7. Dans la zone Filter :
    1. Sélectionnez .balance dans la zone Input, car vous souhaitez filtrer les enregistrements correspondant aux soldes des comptes utilisateurs·rices.
    2. Sélectionnez None (Aucune) dans la liste Optionally select a function to apply (Sélectionnez une fonction facultative à appliquer), >= dans la liste Operator (Opérateur) et saisissez $3,000 dans la liste Value (Valeur) puisque vous souhaitez filtrer sur les utilisateurs et utilisatrices ayant un solde de compte supérieur ou égal à 3 000 dollars.
  8. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Vous pouvez voir que les enregistrements sont filtrés et que seuls quatre enregistrements répondent aux critères définis :

    Le panneau d'aperçu affiche les données d'entrée, avant l'opération de filtrage et les données de sortie, après l'opération de filtrage.
  9. Cliquez sur l'élément ADD DESTINATION du pipeline pour ouvrir le panneau vous permettant de sélectionner le jeu de données qui contiendra les données filtrées.
  10. Donnez un nom significatif à la Destination, log output par exemple.
  11. Dans l'onglet Configuration du jeu de données de destination, activez l'option Log records to STDOUT pour afficher les enregistrements en lecture dans les logs d'exéuction du pipeline.
  12. (Facultatif) Si vous exécutez votre pipeline à cette étape, vous pouvez voir dans les logs que les quatre enregistrements vus dans l'aperçu des données sont passés, selon le filtre défini :
    Le panneau des logs indique que sept enregistrements ont été lus et que quatre enregistrements ont été produits au cours de l'exécution du pipeline.
  13. Retournez dans l'onglet Configuration du processeur Filter pour ajouter et attribuer une variable :
    Dans le panneau Configuration du processeur Filter, l'icône représentant un X vous permettant d'ajouter des variables de contexte est sélectionnée.
    1. Cliquez sur l'icône près du champ Value (Valeur) pour ouvrir la fenêtre [Assign a variable] ([Attribuer une variable]).
    2. Cliquez sur Add variable (Ajouter une variable).
    3. Nommez votre variable, balance_amount par exemple.
    4. Saisissez la valeur de la variable qui écrasera la valeur par défaut, ici $1,000.
    5. Saisissez une description si nécessaire et cliquez sur Add (Ajouter).
    6. Une fois votre variable créée, vous êtes redirigé·e vers la fenêtre Assign a variable listant toutes les variables de contexte. Sélectionnez vos variables et cliquez sur Assign (Attribuer).
      Dans la fenêtre 'Assign a variable (Attribuer une variable)', la nouvelle variable est sélectionnée et le bouton 'Assign (Attribuer)' est activé.
      Votre variable et sa valeur sont attribuées au champ Value du filtre, ce qui signifie que la valeur de $1,000 écrase celle de $3,000 précédemment définie.
    7. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  14. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  15. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les données sont filtrées selon la variable de contexte attribuée à la valeur de filtre. Dans les logs d'exécution du pipeline, vous pouvez voir :
  • la valeur de variable de contexte utilisée lors de l'exécution
    Dans le panneau des logs, les informations relatives aux variables de contexte lors de l'exécution sont sélectionnées.
  • le nombre d'enregistrements produits, ici 7 enregistrements répondent aux critères, ce qui signifie que 7 enregistrements utilisateur ont un solde de compte supérieur ou égal à mille dollars
    Le panneau des logs indique que sept enregistrements ont été lus et que sept enregistrements ont été produits au cours de l'exécution du pipeline.