Configurer les paramètres de connexion à Cloudera - 7.3

Spark Streaming

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Streaming
Last publication date
2024-02-22

Terminez la configuration de la connexion Cloudera dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Si vous ne trouvez pas la version de Cloudera ou Hortonworks à utiliser dans la liste déroulante Version, vous pouvez ajouter votre distribution dans les paramètres de distributions dynamiques dans le Studio.
  • Sur la liste des versions de distribution, certaines versions ont un libellé Builtin. Ces versions ont été ajoutées par Talend via le mécanisme de distribution dynamique et livrées avec le Studio lors de sa sortie. Elles sont certifiées par Talend et sont donc officiellement supportées et prêtes à l'emploi.
Si vous ne trouvez pas la version de Cloudera à utiliser dans la liste déroulante, vous pouvez ajouter votre distribution dans les paramètres de distributions dynamiques dans le Studio.
  • Sur la liste des versions de distribution, certaines versions ont un libellé Builtin. Ces versions ont été ajoutées par Talend via le mécanisme de distribution dynamique et livrées avec le Studio lors de sa sortie. Elles sont certifiées par Talend et sont donc officiellement supportées et prêtes à l'emploi.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Procédure

  1. Saisissez les informations de configuration de Knox :
    Use Knox Si vous utilisez Knox, vous devez configurer les paramètres suivants, dans les champs qui correspondent :
    • Knox URL : saisissez l'URL Knox en respectant le format suivant https://<host>/<datahub>/cdp-proxy-api. L'URL Knox se trouve dans Cloudera Management Console, dans la section Endpoints de votre Data Hub, sous Livy Server.
      Important : L'URL ne doit pas inclure /livy ou tout autre suffixe après cdp-proxy-api.
    • Knox user  saisissez votre identifiant Workload User Name de Cloudera Management Console.
    • Knox password : saisissez votre Workload Password depuis Cloudera Management Console.
    • Knox session timeout : spécifiez le temps d'attente total avant que le Job se reconnecte au cluster via Knox.
    • Knox directory : saisissez l'emplacement de stockage du fichier chargé dans HDFS.
    • Poll interval when retrieving Job status (in ms) : saisissez, sans guillemets, l'intervalle de temps (en millisecondes) à l'issue duquel vous souhaitez que le Studio interroge Spark au sujet du statut du Job. Par exemple, ce statut peut être Pending (en attente) ou Running (en cours d'exécution).

      La valeur par défaut est 30000, c'est-à-dire, 30 secondes.

    • Dans le champ Maximum number of consecutive statuses missing, saisissez le nombre maximal de tentatives du Studio pour obtenir un statut lorsqu'il n'y a pas de réponse.

      La valeur par défaut est 10.

    Ces options sont disponibles pour CDP 7.1 et versions supérieures en mode YARN cluster dans des Jobs Spark Batch et Spark Streaming uniquement.

  2. Saisissez les informations simples de configuration :
    Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.
    Remarque :
    • Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
    • Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
    Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :
    • Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
    • Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
    Important : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
    Remarque : Les Jobs créés en 7.3 utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
    Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates.
    Remarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.
  3. Sélectionnez le type de cluster Spark auquel vous connecter.

    Standalone

    Le Studio se connecte à un cluster configuré pour Spark afin d'exécuter le Job depuis ce cluster.

    Si vous utilisez le mode Standalone vous devez configurer les paramètres suivants :

    • Dans le champ Spark host, saisissez l'URI du Spark Master du cluster Hadoop utilisé.

    • Dans le champ Spark home, saisissez l'emplacement où l'exécutable Spark est installé dans le cluster Hadoop utilisé.

    • Si le cluster Spark ne peut reconnaître la machine sur laquelle le Job est lancé, cochez la case Define the driver hostname or IP address et saisissez le nom de l'hôte ou l'adresse IP de cette machine. Cela permet au Master Spark et à ses Workers de reconnaître la machine où se trouve le Job, et donc son pilote.

      Notez que, dans cette situation, vous devez également ajouter le nom et l'adresse IP de cette machine dans son fichier host.

    Yarn client

    Le Studio exécute le pilote Spark pour orchestrer la manière dont sera exécuté le Job, puis envoie l'orchestration au service Yarn d'un cluster Hadoop donné, afin que le Resource Manager de ce service Yarn demande des ressources pour l'exécution.

    Si vous utilisez le mode Yarn client, vous devez configurer les paramètres suivants dans les champs correspondants (si vous laissez décochée la case d'un service, lors de l'exécution, la configuration de ce paramètre dans le cluster Hadoop à utiliser sera ignorée) :

    • Dans le champ Use datanode du Resource manager, saisissez l'adresse du service ResourceManager du cluster Hadoop à utiliser.

    • Cochez la case Set resourcemanager scheduler address et saisissez l'adresse de l'ordonnanceur (Scheduler) dans le champ qui apparaît.

    • Cochez la case Set jobhistory address et saisissez l'emplacement du serveur JobHistory du cluster Hadoop à utiliser. Cela permet de stocker les informations relatives aux métriques du Job courant sur le serveur JobHistory.

    • Cochez la case Set staging directory et saisissez le chemin d'accès au répertoire défini dans votre cluster Hadoop pour les fichiers temporaires créés par l'exécution de programmes. Ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration comme yarn-site.xml ou mapred-site.xml de votre distribution.

    • Si vous accédez au cluster Hadoop s'exécutant avec la sécurité Kerberos, cochez cette case. Saisissez les noms des principaux Kerberos pour le service du ResourceManager et le service du JobHistory dans les champs qui s'affichent. Cela vous permet d'utiliser votre nom d'utilisateur ou d'utilisatrice pour vous authentifier, en les comparant aux informations stockées dans Kerberos. Ces principaux se trouvent dans les fichiers de configuration de votre distribution, comme yarn-site.xml et mapred-site.xml.

      Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un serveur de Jobs Talend.

      l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser.

    • Le champ User name est disponible lorsque vous n'utilisez pas Kerberos pour vous authentifier. Dans le champ User name, saisissez votre identifiant pour cette distribution. Si vous laissez le champ vide, le nom de la machine hébergeant le Studio sera utilisé.

    • Si le cluster Spark ne peut reconnaître la machine sur laquelle le Job est lancé, cochez la case Define the driver hostname or IP address et saisissez le nom de l'hôte ou l'adresse IP de cette machine. Cela permet au Master Spark et à ses Workers de reconnaître la machine où se trouve le Job, et donc son pilote.

      Notez que, dans cette situation, vous devez également ajouter le nom et l'adresse IP de cette machine dans son fichier host.

    Yarn cluster

    Le pilote Spark s'exécute dans votre cluster Yarn afin d'orchestrer la manière d'exécuter le Job.

    Si vous utilisez le mode Yarn cluster, vous devez définir les paramètres suivants dans les champs correspondants (si vous laissez la case d'un service décochée, la configuration de ce paramètre dans le cluster Hadoop à utiliser sera ignorée lors de l'exécution) :

    • Dans le champ Use datanode du Resource manager, saisissez l'adresse du service ResourceManager du cluster Hadoop à utiliser.

    • Cochez la case Set resourcemanager scheduler address et saisissez l'adresse de l'ordonnanceur (Scheduler) dans le champ qui apparaît.

    • Cochez la case Set jobhistory address et saisissez l'emplacement du serveur JobHistory du cluster Hadoop à utiliser. Cela permet de stocker les informations relatives aux métriques du Job courant sur le serveur JobHistory.

    • Cochez la case Set staging directory et saisissez le chemin d'accès au répertoire défini dans votre cluster Hadoop pour les fichiers temporaires créés par l'exécution de programmes. Ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration comme yarn-site.xml ou mapred-site.xml de votre distribution.

    • Set path to custom Hadoop configuration JAR : si vous utilisez une connexion définie dans le Repository pour vous connecter à votre cluster Cloudera ou Hortonworks, cochez cette case dans l'assistant du Repository. Dans le champ qui s'affiche, spécifiez le chemin d'accès au fichier Jar fournissant les paramètres de connexion à votre environnement. Ce fichier doit être accessible depuis la machine sur laquelle votre Job est exécuté.

      Ce genre de fichier Jar de configuration Hadoop est automatiquement généré lorsque vous construisez un Job Big Data dans le Studio. Le fichier Jar est nommé suivant ce modèle par défaut :
      hadoop-conf-[name_of_the_metadata_in_the_repository]_[name_of_the_context].jar
      Vous pouvez également télécharger ce fichier Jar depuis la console Web de votre cluster ou simplement créer un fichier Jar en plaçant les fichiers de configuration à la racine de votre fichier Jar. Par exemple :
      hdfs-sidt.xml
      core-site.xml

      Les paramètres de votre fichier Jar personnalisé écrasent les paramètres renseignés dans le champ Spark configuration. Ils écrasent également la configuration définie dans les composants de configuration, comme le tHDFSConfiguration ou le tHBaseConfiguration, lorsque le système de stockage associé, tel que HDFS, HBase ou Hive est natif Hadoop. Ils n'écrasent pas la configuration définie dans les composants de configuration pour le système de stockage tiers, comme le tAzureFSConfiguration.

    • Si vous accédez au cluster Hadoop s'exécutant avec la sécurité Kerberos, cochez cette case. Saisissez les noms des principaux Kerberos pour le service du ResourceManager et le service du JobHistory dans les champs qui s'affichent. Cela vous permet d'utiliser votre nom d'utilisateur ou d'utilisatrice pour vous authentifier, en les comparant aux informations stockées dans Kerberos. Ces principaux se trouvent dans les fichiers de configuration de votre distribution, comme yarn-site.xml et mapred-site.xml.

      Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un serveur de Jobs Talend.

      l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser.

    • Le champ User name est disponible lorsque vous n'utilisez pas Kerberos pour vous authentifier. Dans le champ User name, saisissez votre identifiant pour cette distribution. Si vous laissez le champ vide, le nom de la machine hébergeant le Studio sera utilisé.

    • Cochez la case Wait for the Job to complete pour que votre Studio ou, si vous utilisez le JobServer Talend, la JVM de votre Job continue à monitorer le Job jusqu'à ce que son exécution soit terminée. En cochant cette case, vous configurez la propriété spark.yarn.submit.waitAppCompletion à true. Il est généralement utile de cocher cette case lors de l'exécution d'un Job Spark Batch, mais il est encore plus sensé de la laisser décochée lors de l'exécution d'un Job Spark Streaming.

    Vérifiez que le nom d'utilisateur ou d'utilisatrice en mode Yarn client est le même que celui saisi dans le tHDFSConfiguration, le composant utilisé pour fournir des informations de connexion HDFS à Spark.

  4. En mode Yarn client, la liste Property type s'affiche et vous permet de sélectionner une connexion à Hadoop établie depuis le Repository, si vous avez créé cette connexion dans le Repository. Le Studio réutilise l'ensemble des informations de connexion pour ce Job.
  5. Si vous devez exécuter depuis Windows, il est recommandé de spécifier où le programme winutils.exe à utiliser est stocké.
    • Si vous savez où se trouve le fichier winutils.exe et que vous souhaitez l'utiliser, cochez la case Define the Hadoop home directory et saisissez le répertoire dans lequel est stocké winutils.exe.

    • Sinon, laissez cette case décochée. Le Studio en génère un par lui-même et l'utilise pour le Job.

  6. Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke, dans le système local, les fichiers temporaires comme les fichiers .jar à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Ainis, si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.

Résultats