Charger des données en masse dans Azure Synapse depuis Azure DLS Gen2 - Cloud

Guide des connecteurs des applications Talend Cloud

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Administration et monitoring > Gestion des connexions
Création et développement > Création de Pipelines
EnrichPlatform
Talend Pipeline Designer

Ce scénario a pour objectif de vous aider à configurer et à utiliser des connecteurs dans un pipeline. Ce scénario doit être adapté en fonction de votre environnement et de votre cas d'utilisation.

Procédure

  1. Cliquez sur Connections > ADD CONNECTION.
  2. Dans le panneau qui s'ouvre, donnez un nom à votre connexion, ainsi qu'une description, si nécessaire.

    Exemple

    Azure Data Lake Storage Gen2
  3. Sélectionnez votre moteur dans la liste Engine.
    Remarque : Si aucun Remote Engine Gen2 n'a été créé depuis Talend Cloud Management Console ou s'il existe mais semble indisponible, ce qui signifie qu'il n'est pas en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion (Connection type) dans la liste ou sauvegarder la nouvelle connexion. Les types de connexion disponibles dépendent du moteur sélectionné.
  4. Sélectionnez le type de connexion à créer.
    Ici, sélectionnez Azure Data Lake Storage Gen2.
  5. Renseignez les propriétés de la connexion pour accéder à votre système de fichiers Azure Data Lake Storage Gen2 comme décrit dans Propriétés Azure Data Lake Storage Gen2, vérifiez la connexion et cliquez sur ADD DATASET.
  6. Dans le panneau Add a new dataset, nommez votre jeu de données.

    Exemple

    BKO Taxi On Azure DLS Gen2
  7. Renseignez les propriétés requises pour accéder au fichier situé dans votre compte de stockage et cliquez sur VIEW SAMPLE pour voir un aperçu de l'échantillon de données.
    Dans cet exemple, un fichier CSV contenant des données sur les prix de courses en taxi à Bamako, au Mali, est récupéré dans le dossier talend d'un système de fichiers Azure nommé talend-fs. Vous pouvez voir les répertoires de votre système de fichiers depuis la page Storage Explorer de votre compte de stockage Azure.
  8. Procédez de la même manière pour ajouter la table Azure Synapse qui sera créée lors de l'exécution de votre pipeline, nommée taxi_data dans cet exemple. Renseignez les propriétés de la connexion comme décrit dans Propriétés Azure Synapse.
  9. Cliquez sur ADD PIPELINE dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  10. Donnez-lui un nom significatif.

    Exemple

    From Azure DLS Gen2 to Synapse - trip cost per distance covered
  11. Cliquez sur ADD SOURCE et sélectionnez votre jeu de données source, BKO taxi on Azure DSL Gen2 dans le panneau qui s'ouvre.
  12. Cliquez sur pour ajouter des processeurs au pipeline, par exemple un processeur Type converter pour convertir les champs de chaînes de caractères en champs numériques ou en champs doubles, un processeur Field selector pour filtrer et renommer certains enregistrements, et un processeur Aggregate pour calculer le coût d'un trajet en fonction de la distance parcourue.
  13. Cliquez sur l'élément ADD DESTINATION dans le pipeline pour ouvrir le panneau vous permettant de sélectionner le Blob Azure dans lequel vos données de sortie seront chargées.
  14. Donnez un nom significatif à la Destination, bulk load par exemple.
  15. Dans l'onglet Configuration de la destination, sélectionnez l'Action à effectuer sur la table (BULK LOAD), puis sélectionnez la connexion Blob à utiliser. Pour plus d'informations concernant la configuration d'Azure Blob Storage, consultez Stockage Blob Azure.
  16. Cliquez sur SAVE pour sauvegarder votre configuration.
  17. (Facultatif) Cliquez sur le dernier processeur, afin de prévisualiser les données traitées.
  18. Cliquez sur SAVE pour sauvegarder votre configuration.
  19. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
  20. Cliquez sur l'icône d'exécution pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les informations sur le prix des taxis qui ont été stockées sur Azure DLS Gen2 ont été agrégées en fonction de la distance parcourue et le flux de sortie est chargé dans la table Azure Synapse, qui est créée lors de l'exécution du pipeline.