Configurer des profils d’exécution Big Data - Cloud

Guide utilisateur de Talend Cloud Management Console

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Administration et monitoring > Gestion des projets
Administration et monitoring > Gestion des utilisateurs
Déploiement > Exécution de Pipelines
Déploiement > Exécution de Tâches
Déploiement > Ordonnancement > Ordonnancement de Tâches
EnrichPlatform
Talend Management Console

Procédure

  1. Saisissez l’intervalle, en millisecondes, entre les micro-batches.
  2. Définissez, en millisecondes, le délai avant suspension du Streaming.
  3. Facultatif : Définissez la file YARN.
  4. Facultatif : Saisissez le nombre de cœurs de pilote à utiliser pour le processus du pilote.
  5. Facultatif : Définissez la mémoire à utiliser pour le processus du pilote (où SparkContext est initialisé), en mégaoctets.
  6. Définissez le chemin vers les fichiers temporaires de votre système local, comme les fichiers Jar à transférer.
  7. Sélectionnez la stratégie YARN dans la liste déroulante.
    • L’allocation dynamique de ressources permet de faire évoluer le nombre d’exécuteurs fonctionnant et ne fonctionnant pas, en se basant sur la charge de travail.
    • Fixed : Le nombre d’exécuteurs est statique, quelle que soit la charge de travail.
  8. Facultatif : Si vous choisissez le mode Dynamic, configurez les paramètres d’allocation dynamique.
    1. Définissez le nombre initial d’exécuteurs.
    2. Définissez la limite haute du nombre d’exécuteurs.
    3. Définissez la limite basse du nombre d’exécuteurs.
  9. Facultatif : Si vous choisissez le mode Fixed, configurez le nombre d’exécuteurs.
  10. Saisissez le nombre de cœurs à utiliser par exécuteur.
  11. Saisissez la taille de mémoire à utiliser par exécuteur Spark, en mégaoctets.
  12. Saisissez la taille de la mémoire hors tas à allouer par exécuteur, en mégaoctets.
    Cette mémoire est utile notamment pour les dépassements de mémoire dans les machins virtuelles, les dépassements de mémoire natifs ou encore pour les chaînes de caractères internées (interned strings). La taille de cette mémoire grandit avec la taille de l’exécuteur (généralement entre 6 et 10 %).
  13. Facultatif : Activez l’option Checkpointing pour fournir suffisamment d’informations aux points de contrôle Spark Streaming et créer un système de stockage tolérant aux pannes, afin qu’il puisse récupérer après des échecs.
  14. Facultatif : Saisissez le chemin d’accès au fichier de point de contrôle.
  15. Facultatif : Dans la zone ADVANCED CONFIGURATION, cliquez sur ADD PARAMETER pour créer un paramètre.
  16. Facultatif : Saisissez la clé et la valeur pour chaque nouveau paramètre.
    Cette étape est obligatoire si vous avez activé les points de contrôle.

    Exemple

    Pour configurer la mémoire à utiliser par processus d’exécuteur, saisissez spark.executor.memory dans la clé du paramètre et 16g dans les champs de valeur.
  17. Cliquez sur SAVE.