Combiner les exploitants aériens français et les ventes en France - Cloud

Guide des processeurs de Talend Cloud Pipeline Designer

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Création et développement > Création de Pipelines
Last publication date
2024-02-27

Un pipeline complexe incluant trois jeux de données sources et deux processeurs Join.

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

    Ici, une connexion de test et une connexion à Amazon S3.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Le premier jeu de données de gauche contient les données relatives aux avions, comme les opérateurs, latitudes, longitudes. Le premier jeu de données de droite contient les données des compagnies aériennes à combiner aux données sources : exploitants et pays.

    Le second jeu de données de gauche contient les données relatives aux ventes, comme les pays, régions, dates d'expédition. Le second jeu de données de droite contient le résultat de l'opération de la première jointure. Les données à combiner sont les données relatives aux pays.

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, une connexion de test.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Effectuer une jointure entre les données des exploitants aériens et les données des pays
  3. Cliquez sur ADD SOURCE (AJOUTER UNE SOURCE) pour ouvrir le panneau vous permettant de sélectionner vos données de gauche, ici une liste d'avions.

    Exemple

    Aperçu d'un échantillon de données concernant des avions.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Join au pipeline. Un autre emplacement de source apparaît dans l'espace de travail.
  6. Cliquez sur ADD SOURCE (AJOUTER UNE SOURCE) pour sélectionner votre jeu de données de droite, ici une liste de compagnies aériennes avec les données relatives aux exploitants et aux pays.

    Exemple

    Aperçu d'un échantillon de données concernant des compagnies aériennes.
  7. Ouvrez le panneau de configuration du processeur Join (Jointure).
  8. Donnez un nom significatif au processeur.

    Exemple

    join operators (opérateurs de jointures)
  9. Sélectionnez Inner join (Jointure interne) dans la liste Join type (Type de jointure), car vous souhaitez que les enregistrements des jeux de données de gauche et de droite correspondants soient listés dans le jeu de résultats.
  10. Dans la zone Conditions :
    1. Sélectionnez ou saisissez le chemin d'accès à l'enregistrement existant à comparer dans le jeu de données de gauche (ici, .Op) dans la liste Left key (Clé de gauche).
    2. Sélectionnez ou saisissez le chemin d'accès à l'enregistrement existant à comparer dans le jeu de données de droite (ici, .Op) dans la liste Right key (Clé de droite).

      Vous pouvez utiliser la syntaxe avpath dans cette zone.

  11. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération de jointure.

    Aperçu du processeur Join après application de l'opération de jointure.
  12. Cliquez sur le bouton + et ajoutez un processeur Filter au pipeline. Le panneau de configuration s'ouvre.
  13. Donnez un nom significatif au processeur.

    Exemple

    Filtrer sur les exploitants français
  14. Dans la zone Filters (Filtres) :
    1. Sélectionnez .Country dans la liste Input, pour filtrer les exploitants en se basant sur cette valeur.
    2. Sélectionnez None dans la liste Optionally select a function to apply, car vous ne souhaitez pas appliquer de fonction lors du filtre des enregistrements.
    3. Sélectionnez == dans la liste Operator (Opérateur) et saisissez France dans le champ Value (Valeur), car vous souhaitez filtrer les exploitants de France.
  15. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération de filtre.

    Aperçu du processeur Filter après application d'un filtre sur les opérateurs français.
  16. Cliquez sur le bouton + et ajoutez un processeur Join au pipeline. Un autre emplacement de source apparaît dans l'espace de travail.
  17. Cliquez sur ADD SOURCE (AJOUTER UNE SOURCE) pour sélectionner le jeu de données à combiner au jeu de données existant, ici une liste de ventes avec les données d'expédition.

    Exemple

    Aperçu d'un échantillon de données concernant des ventes régionales.
  18. Ouvrez le panneau de configuration du processeur Join (Jointure).
  19. Donnez un nom significatif au processeur.

    Exemple

    Effectuer une jointure sur les pays
  20. Sélectionnez Inner join (Jointure interne) dans la liste Join type (Type de jointure), car vous souhaitez que les enregistrements des jeux de données de gauche et de droite correspondants soient listés dans le jeu de résultats.
  21. Dans la zone Conditions :
    1. Sélectionnez ou saisissez le chemin d'accès à l'enregistrement existant à comparer dans le jeu de données de gauche (ici, .Country) dans la liste Left key (Clé de gauche).
    2. Sélectionnez ou saisissez le chemin d'accès à l'enregistrement existant à comparer dans le jeu de données de droite (ici, .Country) dans la liste Right key (Clé de droite).

      Vous pouvez utiliser la syntaxe avpath dans cette zone.

  22. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération de jointure.

    Aperçu du processeur Join après application de l'opération de jointure interne.
  23. Cliquez sur l'élément ADD DESTINATION à côté du processeur Join et sélectionnez le jeu de données qui contiendra les données jointes.
    Ici un jeu de données de test de sortie est ajouté avec l'option Log records to STDOUT (Écrire les enregistrements dans STDOUT) activée.
  24. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  25. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les données des exploitants aériens français sont combinées aux données des ventes de France dans la sortie générée. Vous pouvez consulter les logs pour voir les enregistrements générés après les opérations de jointure :
Logs de pipeline affichant les enregistrements générés après les opérations de jointure.