Logs et points de contrôle des activités de votre Job Spark Apache - 7.3

Spark Streaming

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Streaming

Il est recommandé d'activer le système de points de contrôle et de logs Spark dans l'onglet Spark configuration de la vue Run de votre Job Spark pour faciliter le débogage et reprendre votre Job Spark lorsque vous êtes confronté à des problèmes.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Big Data de Talend, et ne sont pas applicables aux utilisateurs et utilisatrices de Talend Open Studio for Big Data.

Procédure

  1. Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.

    Pour plus d'informations concernant les points de contrôle Spark, consultez http://spark.apache.org/docs/latest/streaming-programming-guide.html#checkpointing (en anglais).

  2. En mode Yarn client ou Yarn cluster, vous pouvez activer les logs de l'application Spark de ce Job pour qu'ils soient persistants dans le système de fichiers. Pour ce faire, cochez la case Enable Spark event logging.
    Les paramètres relatifs aux logs Spark s'affichent :
    • Spark event logs directory : saisissez le répertoire où sont enregistrés les événements Spark. Il s'agit de la propriété spark.eventLog.dir.

    • Spark history server address : saisissez l'emplacement du serveur de l'historique. Il s'agit de la propriété spark.yarn.historyServer.address.

    • Compress Spark event logs : si nécessaire, cochez la case pour compresser les logs. Il s'agit de la propriété spark.eventLog.compress.

    Comme l'administrateur de votre cluster peut avoir défini ces propriétés dans les fichiers de configuration du cluster, contactez l'administrateur pour obtenir les valeurs exactes.

  3. Si vous souhaitez imprimer le contexte Spark que votre Job lance dans le log, ajoutez la propriété spark.logConf dans la table Advanced properties et saisissez, entre guillemets doubles, true dans la colonne Value de cette table.

    Comme l'administrateur de votre cluster peut avoir défini ces propriétés dans les fichiers de configuration du cluster, contactez l'administrateur pour obtenir les valeurs exactes.