Utiliser des variables de contextes pour utiliser différents jeux de données lors de l'exécution

Dans ce scénario, des variables de contexte sont ajoutées pour écraser les jeux de données utilisés en source et destination lors de l'exécution.

Un pipeline affiche un jeu de données client HTTP avec une variable de contexte comme source du pipeline, un processeur Filter et un jeu de données BigQuery comme destination du pipeline.

Avant de commencer

Vous avez précédemment créé une connexion au système stockant vos données source, ici une connexion à un Client HTTP.

L'URL de base de la connexion est : https://datausa.io/.
Vous avez précédemment ajouté le jeu de données contenant vos données source.

Ici, des données publiques provenant des États-Unis, y compris des statistiques relatives à la population.
Les propriétés du jeu de données du Client HTTP sont :
- Méthode HTTP : GET
- Path (Chemin) : /api/data
- Query parameters (Paramètres de requête) : Name (Nom) : drilldowns Value (Valeur) : Nation ; Name (Nom) : measures Value (Valeur) : Population
- Response body format (Format du corps de la réponse) : JSON
- Extract a sub-part of the response (Extraire une sous-partie de la réponse) : .data
- Returned content (Contenu retourné) : Corps ;
Vous avez également créé la connexion de destination, ici une connexion à Google BigQuery et un jeu de données BigQuery nommé Nation_statistics. La table BigQuery sera créée lors de l'exécution et contiendra les statistiques des États-Unis, par an.

Procédure

Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
Donnez-lui un nom significatif.
Exemple
Filter US population stats on year >=2015
Cliquez sur ADD SOURCE (AJOUTER UNE SOURCE) pour ouvrir le panneau vous permettant de sélectionner vos données source, ici get US stats.
Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
Renommez-le si nécessaire.
Cliquez sur le bouton et ajoutez un processeur Filter au pipeline. Le panneau de Configuration s’affiche.
Donnez un nom significatif au processeur, filter on year >= 2015 par exemple.
Dans la zone Filter :
1. Sélectionnez .ID_Year dans la zone Input (Entrée), car vous souhaitez filtrer les enregistrements correspondant à l'année des données collectées.
2. Sélectionnez None (Aucune) dans la liste Optionally select a function to apply (De manière facultative, sélectionnez une fonction à appliquer), >= dans la liste Operator (Opérateur) et saisissez 2015 dans la liste Value (Valeur) puisque vous souhaitez filtrer sur les statistiques collectées après 2015.
Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

Vous pouvez voir que les enregistrements sont filtrés et que six enregistrements répondent aux critères définis.
Cliquez sur l'élément ADD DESTINATION (AJOUTER UNE DESTINATION) du pipeline pour ouvrir le panneau vous permettant de sélectionner la table BigQuery qui contiendra les données filtrées.
Donnez un nom significatif à la Destination ; Nation stats table par exemple et sélectionnez Create table if not exists (Créer la table si elle n'existe pas) dans la liste Table operation (Opération sur la table), car vous souhaitez créer la table Nation_statistics et y insérer les données lors de l'exécution.
(Facultatif) Si vous exécutez votre pipeline à cette étape, vous pouvez voir dans les logs que les enregistrements filtrés sont passés selon le filtre défini. Vous allez voir la table Nation_statistics créée dans votre compte Google BigQuery. Cette nouvelle table contient les six enregistrements filtrés, avec les statistiques collectées aux États-Unis.
Retournez dans l'onglet Dataset (Jeu de données) de la source US data - stats pour ajouter et assigner une variable :
1. Dans la zone Query parameters (Paramètres de la requête), cliquez sur l'icône près du paramètre Value (Valeur) de drilldowns pour ouvrir la fenêtre Add variable (Ajouter une variable).
2. Nommez votre variable, State statistics par exemple.
3. Saisissez la valeur de la variable écrasant la ressource par défaut à récupérer, State ici.
4. Saisissez une description si nécessaire et cliquez sur Add (Ajouter).
5. Une fois votre variable créée, vous êtes redirigé·e vers la fenêtre Assign a variable listant toutes les variables de contexte. Sélectionnez vos variables et cliquez sur Assign (Attribuer).
  Votre variable et sa valeur sont attribuées au paramètre de requête drilldowns du Client HTTP, ce qui signifie que la valeur du paramètre State va écraser la valeur du paramètre Nation précédemment définie. Au lieu de récupérer les statistiques des nations, par an, ce sont les statistiques des États, par an, qui seront récupérées.
6. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
Allez dans l'onglet Dataset (Jeu de données) de la destination Nation stats table pour ajouter et attribuer une variable :
1. Cliquez sur l'icône près du paramètre Table name (Nom de la table) pour ouvrir la fenêtre Add a variable (Ajouter une variable).
2. Nommez votre variable, State_table par exemple.
3. Saisissez la valeur de la variable écrasant la table par défaut, State_statistics ici.
4. Saisissez une description si nécessaire et cliquez sur Add (Ajouter).
5. Une fois votre variable créée, vous êtes redirigé·e vers la fenêtre Assign a variable listant toutes les variables de contexte. Sélectionnez vos variables et cliquez sur Assign (Attribuer).
  
  Votre variable et sa valeur sont attribuées au paramètre Table name (Nom de la table) du jeu de données BigQuery, ce qui signifie que la table State va écraser la table Nation précédemment définie. Au lieu d'insérer des données dans la table Nation, les données seront insérées dans la table State.
6. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les données sont filtrées selon la variable de contexte attribuée aux jeux de données source et cible.

Dans les logs d'exécution du pipeline, vous pouvez voir les variables de contexte utilisées pour récupérer les données relatives aux États des États-Unis et pour créer la table State dans BigQuery lors de l'exécution. 312 enregistrements sont insérés dans la nouvelle table.
Dans votre compte Google BigQuery, vous pouvez voir que la nouvelle table State_Statistics est renseignée avec les données filtrées (données collectées des États après 2015).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici