Définir les paramètres de connexion à Azure Synapse Analytics - 7.3

Spark Streaming

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Streaming
Last publication date
2024-02-22

Terminez la configuration de la connexion à Azure Synapse Analytics dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn cluster est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Important : Spark Pools est le seul service d'Azure Synapse Analytics supporté par les Jobs Spark dans le Studio Talend.

Avant de commencer

Un espace de travail Synapse et un pool Apache Spark doivent être configurés. Pour plus d'informations, consultez Création d’un espace de travail Synapse et Créer un pool Apache Spark serverless avec le portail Azure dans la documentation Microsoft officielle.

Pourquoi et quand exécuter cette tâche

Procédure

  1. Saisissez les informations simples de connexion à Azure Synapse :
    Endpoint Saisissez le point de terminaison de développement dans le champ Development endpoint de votre compte Azure Synpase. Vous pouvez le trouver dans la section Overview de votre espace de travail Azure Synapse.
    Authorization token Saisissez le jeton généré pour votre compte Azure Synapse.
    Remarque : Pour générer un jeton, vous devez saisir la commande suivante :curl -X post -H "Content-Type: application/x-www-form-urlencoded" -d 'client_id=<YourClientID>&scope=https://dev.azuresynapse.net/.default&client_secret=<YourClientSecret>&grant_type=client_credentials' 'https://login.microsoftonline.com/<YourTenantID>/oauth2/v2.0/token'

    Vous pouvez récupérer votre ID client, votre Secret client et votre ID de tenant depuis votre portail Azure.

    L'authentification à Azure Synapse est effectuée via l'application Azure Active Directory. Pour plus d'informations concernant l'enregistrement dans Azure Active Directory, consultez Utiliser le portail pour créer une application et un principal du service Azure AD pouvant accéder aux ressources dans la documentation Microsoft officielle.

    Important : Le jeton n'est valide qu'une heure. Vous devez en générer un nouveau après une heure, sinon vous risquez d'obtenir une erreur (401 - Non autorisé).
    Apache Spark pools Saisissez, entre guillemets doubles, le nom du pool Apache Spark à utiliser.
    Remarque : Du côté de l'espace de travail Azure Synapse, assurez-vous que :
    • l'option Autoscale dans la vue Basic settings et l'option Automatic pausing dans la vue Additional settings sont activées lors de la création d'un pool Apache Spark
    • la version sélectionnée d'Apache Spark est configurée à 3.0 (preview)
    Poll interval when retrieving Job status (in ms) Saisissez, sans guillemet double, l'intervalle de temps (en millisecondes) à la fin duquel vous souhaitez que le Studio demande à Spark le statut du Job.

    La valeur par défaut est 3000, ce qui signifie 30 secondes.

    Maximum number of consecutive statuses missing Saisissez le nombre maximal de tentatives de demandes de statut du Studio lorsqu'il n'y a pas de réponse.

    La valeur par défaut est 10.

  2. Saisissez les informations simples de stockage d'Azure Synapse :
    Storage Sélectionnez le stockage à utiliser dans la liste déroulante.

    ADLS Gen2 est le stockage par défaut pour l'espace de travail Azure Synapse Analytics

    Nom d'hôte Saisissez le compte Primary ADLS Gen2 account de votre compte Azure Synapse. Vous pouvez le trouver dans la section Overview de votre espace de travail Azure Synapse.
    Container Saisissez le compte Primary ADLS Gen2 account de votre compte Azure Synapse. Vous pouvez le trouver dans la section Overview de votre espace de travail Azure Synapse.
    Username Saisissez le nom du compte de stockage lié à votre espace de travail Azure Synapse.
    Password Saisissez les clés d'accès liées à votre espace de travail Azure Synapse.

    Pour plus d'informations concernant la récupération de vos clés d'accès, consultez Gérer les clés d’accès au compte de stockage dans la documentation Microsoft officielle.

    Deployment Blob Saisissez l'emplacement où vous souhaitez stocker le Job et ses bibliothèques dépendantes dans votre stockage.
  3. Saisissez les informations simples de configuration :
    Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.
    Remarque :
    • Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
    • Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
    Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :
    • Si vous cochez la case, les composants dans le Job Spark Batch s'exécutent avec DS, ce qui améliore les performances.
    • Si vous décochez la case, les composants dans le Job Spark Batch s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
    Important : Si votre Job Spark Batch contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
    Remarque : Les Jobs Spark Batch créés en 7.3 utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
    Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates.
    Remarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.
    Batch size (ms) Saisissez l'intervalle de temps à la fin duquel le Job Spark Streaming revoit la source de données pour identifier les modifications et traite les nouveaux micro-batchs.
    Define a streaming timeout (ms) Cochez cette case et, dans le champ qui s'affiche, saisissez la période de temps à la fin de laquelle le Job Spark Streaming s'arrête automatiquement.
    Remarque : Si vous utilisez Windows 10, il est recommandé de configurer un délai avant expiration raisonnable pour éviter que Windows Service Wrapper rencontre un problème lors de l'envoi d'un signal d'arrêt depuis les applications Java. Si vous rencontrez cette erreur, vous pouvez annuler l'exécution du Job manuellement, depuis votre espace de travail Azure Synapse Analytics.
  4. Cochez la case Set tuning properties pour définir les paramètres d'ajustement, en suivant le processus présenté dans :
    Important : Vous devez définir les paramètres d'ajustement, sinon vous risquez d'obtenir une erreur (400 - Requête incorrecte).
  5. Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke, dans le système local, les fichiers temporaires comme les fichiers .jar à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Ainis, si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.
  6. Cochez la case Wait for the Job to complete pour que votre Studio ou, si vous utilisez le JobServer Talend, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.

Résultats

Vous pouvez récupérer les résultats du Job dans votre espace de travail Azure Synapse avec l'ID Livy généré lors de l'exécution de votre Job.