Utiliser des variables de contextes pour utiliser différents jeux de données lors de l'exécution - Cloud

Guide d'utilisation de Talend Cloud Pipeline Designer

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Administration et monitoring > Monitoring de logs
Administration et monitoring > Monitoring des exécutions
Création et développement > Création de Pipelines
Déploiement > Déploiement > Exécution de Pipelines
Gouvernance de données > Filtrage de données
Qualité et préparation de données > Filtrage de données
Qualité et préparation de données > Gestion des jeux de données
Last publication date
2024-02-12

Dans ce scénario, des variables de contexte sont ajoutées pour écraser les jeux de données utilisés en source et destination lors de l'exécution.

Un pipeline affiche un jeu de données client HTTP avec une variable de contexte comme source du pipeline, un processeur Filter et un jeu de données BigQuery comme destination du pipeline.

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source, ici une connexion à un Client HTTP.

    L'URL de base de la connexion est : https://datausa.io/.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Ici, des données publiques provenant des États-Unis, y compris des statistiques relatives à la population.

    Les propriétés du jeu de données du Client HTTP sont :
    • Méthode HTTP : GET
    • Path (Chemin) : /api/data
    • Query parameters (Paramètres de requête) : Name (Nom) : drilldowns Value (Valeur) : Nation ; Name (Nom) : measures Value (Valeur) : Population
    • Response body format (Format du corps de la réponse) : JSON
    • Extract a sub-part of the response (Extraire une sous-partie de la réponse) : .data
    • Returned content (Contenu retourné) : Corps ;
  • Vous avez également créé la connexion de destination, ici une connexion à Google BigQuery et un jeu de données BigQuery nommé Nation_statistics. La table BigQuery sera créée lors de l'exécution et contiendra les statistiques des États-Unis, par an.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Filter US population stats on year >=2015
  3. Cliquez sur ADD SOURCE (AJOUTER UNE SOURCE) pour ouvrir le panneau vous permettant de sélectionner vos données source, ici get US stats.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Filter au pipeline. Le panneau de Configuration s’affiche.
  6. Donnez un nom significatif au processeur, filter on year >= 2015 par exemple.
  7. Dans la zone Filter :
    1. Sélectionnez .ID_Year dans la zone Input (Entrée), car vous souhaitez filtrer les enregistrements correspondant à l'année des données collectées.
    2. Sélectionnez None (Aucune) dans la liste Optionally select a function to apply (De manière facultative, sélectionnez une fonction à appliquer), >= dans la liste Operator (Opérateur) et saisissez 2015 dans la liste Value (Valeur) puisque vous souhaitez filtrer sur les statistiques collectées après 2015.
  8. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Vous pouvez voir que les enregistrements sont filtrés et que six enregistrements répondent aux critères définis.

    Le panneau d'aperçu affiche les données d'entrée, avant l'opération de filtrage et les données de sortie, après l'opération de filtrage.
  9. Cliquez sur l'élément ADD DESTINATION (AJOUTER UNE DESTINATION) du pipeline pour ouvrir le panneau vous permettant de sélectionner la table BigQuery qui contiendra les données filtrées.
  10. Donnez un nom significatif à la Destination ; Nation stats table par exemple et sélectionnez Create table if not exists (Créer la table si elle n'existe pas) dans la liste Table operation (Opération sur la table), car vous souhaitez créer la table Nation_statistics et y insérer les données lors de l'exécution.
  11. (Facultatif) Si vous exécutez votre pipeline à cette étape, vous pouvez voir dans les logs que les enregistrements filtrés sont passés selon le filtre défini. Vous allez voir la table Nation_statistics créée dans votre compte Google BigQuery. Cette nouvelle table contient les six enregistrements filtrés, avec les statistiques collectées aux États-Unis.
    La table BigQuery nommée 'Nation_statistics' créée lors de l'exécution affiche six enregistrements relatifs aux statistiques des États-Unis.
  12. Retournez dans l'onglet Dataset (Jeu de données) de la source US data - stats pour ajouter et assigner une variable :
    Dans le panneau Configuration de la source HTTP du client, l'icône représentant un X vous permettant d'ajouter des variables de contexte est sélectionnée, près de la valeur 'Nation'.
    1. Dans la zone Query parameters (Paramètres de la requête), cliquez sur l'icône Context variable (Variable de contexte près du paramètre Value (Valeur) de drilldowns pour ouvrir la fenêtre Add variable (Ajouter une variable).
    2. Nommez votre variable, State statistics par exemple.
    3. Saisissez la valeur de la variable écrasant la ressource par défaut à récupérer, State ici.
    4. Saisissez une description si nécessaire et cliquez sur Add (Ajouter).
    5. Une fois votre variable créée, vous êtes redirigé·e vers la fenêtre Assign a variable listant toutes les variables de contexte. Sélectionnez vos variables et cliquez sur Assign (Attribuer).
      Votre variable et sa valeur sont attribuées au paramètre de requête drilldowns du Client HTTP, ce qui signifie que la valeur du paramètre State va écraser la valeur du paramètre Nation précédemment définie. Au lieu de récupérer les statistiques des nations, par an, ce sont les statistiques des États, par an, qui seront récupérées.
    6. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  13. Allez dans l'onglet Dataset (Jeu de données) de la destination Nation stats table pour ajouter et attribuer une variable :
    Dans le panneau Configuration de la destination BigQuery, l'icône représentant un X vous permettant d'ajouter des variables de contexte est sélectionnée, près de la valeur 'Nation_statistics'.
    1. Cliquez sur l'icône Context variable (Variable de contexte) près du paramètre Table name (Nom de la table) pour ouvrir la fenêtre Add a variable (Ajouter une variable).
    2. Nommez votre variable, State_table par exemple.
    3. Saisissez la valeur de la variable écrasant la table par défaut, State_statistics ici.
    4. Saisissez une description si nécessaire et cliquez sur Add (Ajouter).
    5. Une fois votre variable créée, vous êtes redirigé·e vers la fenêtre Assign a variable listant toutes les variables de contexte. Sélectionnez vos variables et cliquez sur Assign (Attribuer).
      Dans la fenêtre 'Assign a variable (Attribuer une variable)', la nouvelle variable est sélectionnée et le bouton 'Assign (Attribuer)' est activé.
      Votre variable et sa valeur sont attribuées au paramètre Table name (Nom de la table) du jeu de données BigQuery, ce qui signifie que la table State va écraser la table Nation précédemment définie. Au lieu d'insérer des données dans la table Nation, les données seront insérées dans la table State.
    6. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  14. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  15. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les données sont filtrées selon la variable de contexte attribuée aux jeux de données source et cible.
  • Dans les logs d'exécution du pipeline, vous pouvez voir les variables de contexte utilisées pour récupérer les données relatives aux États des États-Unis et pour créer la table State dans BigQuery lors de l'exécution. 312 enregistrements sont insérés dans la nouvelle table.
    Le panneau des logs indique que 312 enregistrements ont été produits et que les variables de contextes utilisées pour récupérer les données relatives aux États des États-Unis et créer la table State dans BigQuery ont été appliquées lors de l'exécution.
  • Dans votre compte Google BigQuery, vous pouvez voir que la nouvelle table State_Statistics est renseignée avec les données filtrées (données collectées des États après 2015).
    La table BigQuery nommée 'State_statistics' créée lors de l'exécution affiche tous les enregistrements relatifs aux statistiques des États.