Définir les paramètres de connexion à Azure Synapse Analytics

Terminez la configuration de la connexion à Azure Synapse Analytics dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Seul le mode Yarn cluster est disponible pour ce type de cluster.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Important : Spark Pools est le seul service d'Azure Synapse Analytics supporté par les Jobs Spark dans le Studio Talend.

Avant de commencer

Un espace de travail Synapse et un pool Apache Spark doivent être configurés. Pour plus d'informations, consultez Création d’un espace de travail Synapse et Créer un pool Apache Spark serverless avec le portail Azure dans la documentation Microsoft officielle.

Pourquoi et quand exécuter cette tâche

Procédure

Saisissez les informations simples de connexion à Azure Synapse :

Endpoint	Saisissez le point de terminaison de développement dans le champ Development endpoint de votre compte Azure Synpase. Vous pouvez le trouver dans la section Overview de votre espace de travail Azure Synapse.
Authorization token	Saisissez le jeton généré pour votre compte Azure Synapse. Remarque : Pour générer un jeton, vous devez saisir la commande suivante :`curl -X post -H "Content-Type: application/x-www-form-urlencoded" -d 'client_id=<YourClientID>&scope=https://dev.azuresynapse.net/.default&client_secret=<YourClientSecret>&grant_type=client_credentials' 'https://login.microsoftonline.com/<YourTenantID>/oauth2/v2.0/token'` Vous pouvez récupérer votre ID client, votre Secret client et votre ID de tenant depuis votre portail Azure. L'authentification à Azure Synapse est effectuée via l'application Azure Active Directory. Pour plus d'informations concernant l'enregistrement dans Azure Active Directory, consultez Utiliser le portail pour créer une application et un principal du service Azure AD pouvant accéder aux ressources dans la documentation Microsoft officielle. Important : Le jeton n'est valide qu'une heure. Vous devez en générer un nouveau après une heure, sinon vous risquez d'obtenir une erreur (401 - Non autorisé).
Apache Spark pools	Saisissez, entre guillemets doubles, le nom du pool Apache Spark à utiliser. Remarque : Du côté de l'espace de travail Azure Synapse, assurez-vous que : l'option Autoscale dans la vue Basic settings et l'option Automatic pausing dans la vue Additional settings sont activées lors de la création d'un pool Apache Spark la version sélectionnée d'Apache Spark est configurée à 3.0 (preview)
Poll interval when retrieving Job status (in ms)	Saisissez, sans guillemet double, l'intervalle de temps (en millisecondes) à la fin duquel vous souhaitez que le Studio demande à Spark le statut du Job. La valeur par défaut est `3000`, ce qui signifie 30 secondes.
Maximum number of consecutive statuses missing	Saisissez le nombre maximal de tentatives de demandes de statut du Studio lorsqu'il n'y a pas de réponse. La valeur par défaut est `10`.

Saisissez les informations simples de stockage d'Azure Synapse :

Storage	Sélectionnez le stockage à utiliser dans la liste déroulante. ADLS Gen2 est le stockage par défaut pour l'espace de travail Azure Synapse Analytics
Nom d'hôte	Saisissez le compte Primary ADLS Gen2 account de votre compte Azure Synapse. Vous pouvez le trouver dans la section Overview de votre espace de travail Azure Synapse.
Container	Saisissez le compte Primary ADLS Gen2 account de votre compte Azure Synapse. Vous pouvez le trouver dans la section Overview de votre espace de travail Azure Synapse.
Username	Saisissez le nom du compte de stockage lié à votre espace de travail Azure Synapse.
Password	Saisissez les clés d'accès liées à votre espace de travail Azure Synapse. Pour plus d'informations concernant la récupération de vos clés d'accès, consultez Gérer les clés d’accès au compte de stockage dans la documentation Microsoft officielle.
Deployment Blob	Saisissez l'emplacement où vous souhaitez stocker le Job et ses bibliothèques dépendantes dans votre stockage.

Saisissez les informations simples de configuration :

Use local timezone	Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Remarque : Si vous décochez cette case, Spark utilise le fuseau horaire UTC. Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components	Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : Si vous cochez la case, les composants dans le Job Spark Batch s'exécutent avec DS, ce qui améliore les performances. Si vous décochez la case, les composants dans le Job Spark Batch s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité. Important : Si votre Job Spark Batch contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case. Remarque : Les Jobs Spark Batch créés en 7.3 utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
Use timestamp for dataset components	Cochez cette case pour utiliser `java.sql.Timestamp` pour les dates. Remarque : Si vous laissez cette case décochée, `java.sql.Timestamp` ou `java.sql.Date` peut être utilisé, selon le modèle.
Batch size (ms)	Saisissez l'intervalle de temps à la fin duquel le Job Spark Streaming revoit la source de données pour identifier les modifications et traite les nouveaux micro-batchs.
Define a streaming timeout (ms)	Cochez cette case et, dans le champ qui s'affiche, saisissez la période de temps à la fin de laquelle le Job Spark Streaming s'arrête automatiquement. Remarque : Si vous utilisez Windows 10, il est recommandé de configurer un délai avant expiration raisonnable pour éviter que Windows Service Wrapper rencontre un problème lors de l'envoi d'un signal d'arrêt depuis les applications Java. Si vous rencontrez cette erreur, vous pouvez annuler l'exécution du Job manuellement, depuis votre espace de travail Azure Synapse Analytics.

Cochez la case Set tuning properties pour définir les paramètres d'ajustement, en suivant le processus présenté dans :
- Personnaliser Spark pour les Jobs Apache Spark Batch.
- Personnaliser Spark pour les Jobs Apache Spark Streaming.
Important : Vous devez définir les paramètres d'ajustement, sinon vous risquez d'obtenir une erreur (400 - Requête incorrecte).
Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke, dans le système local, les fichiers temporaires comme les fichiers .jar à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Ainis, si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.
Cochez la case Wait for the Job to complete pour que votre Studio ou, si vous utilisez le JobServer Talend, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.

Résultats

Vous pouvez récupérer les résultats du Job dans votre espace de travail Azure Synapse avec l'ID Livy généré lors de l'exécution de votre Job.