Charger des données en masse dans Azure Synapse depuis Azure DLS Gen2 - Cloud

Guide des connecteurs des applications Talend Cloud

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
Administration et monitoring > Gestion des connexions
Création et développement > Création de Pipelines
Last publication date
2024-03-21

Ce scénario a pour objectif de vous aider à configurer et à utiliser des connecteurs dans un pipeline. Ce scénario doit être adapté en fonction de votre environnement et de votre cas d'utilisation.

Procédure

  1. Cliquez sur Connections (Connexions) > Add connection (Ajouter une connexion).
  2. Dans le panneau qui s'ouvre, sélectionnez le type de connexion à créer.

    Exemple

    ADLS Gen2
  3. Sélectionnez votre moteur dans la liste Engine.
    Remarque :
    • Il est recommandé d'utiliser Moteur distant Gen2 plutôt que Moteur Cloud pour le design pour un traitement avancé des données.
    • Si aucun Moteur distant Gen2 n'a été créé depuis Talend Management Console ou s'il existe mais semble indisponible, ce qui signifie qu'il n'est pas en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion (Connection type) dans la liste ou sauvegarder la nouvelle connexion.
    • Les types de connexion disponibles dépendent du moteur sélectionné.
  4. Sélectionnez le type de connexion à créer.
    Ici, sélectionnez ADLS Gen2.
  5. Renseignez les propriétés de la connexion pour accéder à votre système de fichiers Azure Data Lake Storage Gen2 comme décrit dans Propriétés Azure Data Lake Storage Gen2, vérifiez la connexion et cliquez sur Add dataset (Ajouter un jeu de données).
  6. Dans le panneau Add a new dataset, nommez votre jeu de données.

    Exemple

    BKO Taxi On Azure DLS Gen2
  7. Renseignez les propriétés requises pour accéder au fichier situé dans votre compte de stockage et cliquez sur View sample (Voir l'échantillon) pour voir un aperçu de l'échantillon de données.
    Dans cet exemple, un fichier CSV contenant des données sur les prix de courses en taxi à Bamako, au Mali, est récupéré dans le dossier talend d'un système de fichiers Azure nommé talend-fs. Vous pouvez voir les répertoires de votre système de fichiers depuis la page Storage Explorer de votre compte de stockage Azure.
  8. Procédez de la même manière pour ajouter la table Azure Synapse qui sera créée lors de l'exécution de votre pipeline, nommée taxi_data dans cet exemple. Renseignez les propriétés de la connexion comme décrit dans Propriétés Azure Synapse.
  9. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  10. Donnez-lui un nom significatif.

    Exemple

    From ADLS Gen2 to Synapse - trip cost per distance covered
  11. Cliquez sur Add source (Ajouter une source) et sélectionnez votre jeu de données source, BKO taxi on ADSL Gen2 dans le panneau qui s'ouvre.
  12. Cliquez sur pour ajouter des processeurs au pipeline, par exemple un processeur Type converter pour convertir les champs de chaînes de caractères en champs entiers ou en champs doubles, un processeur Field selector pour filtrer et renommer certains enregistrements et un processeur Aggregate pour calculer le coût d'un trajet en fonction de la distance parcourue.
  13. (Facultatif) Cliquez sur le dernier processeur, afin de prévisualiser les données traitées.
  14. Cliquez sur l'élément ADD DESTINATION dans le pipeline pour ouvrir le panneau vous permettant de sélectionner le Blob Azure dans lequel vos données de sortie seront chargées.
  15. Donnez un nom significatif à la Destination, bulk load to Synapse par exemple.
  16. Dans l'onglet Configuration de la destination, sélectionnez l'Action à effectuer sur la table (Bulk load (Chargement de masse)), puis sélectionnez la connexion Blob à utiliser. Pour plus d'informations concernant la configuration d'Azure Blob Storage, consultez Stockage Blob Azure.
  17. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  18. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  19. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les informations sur le prix des taxis qui ont été stockées sur Azure DLS Gen2 ont été agrégées en fonction de la distance parcourue et le flux de sortie est chargé dans la table Azure Synapse, qui est créée lors de l'exécution du pipeline.