Logs et points de contrôle des activités de votre Job Spark Apache - 7.1

Spark Batch

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch
EnrichPlatform
Studio Talend

Il est recommandé d'activer le système de points de contrôle et de logs Spark dans l'onglet Spark configuration de la vue Run de votre Job Spark pour faciliter le débogage et reprendre votre Job Spark lorsque vous êtes confronté à des problèmes.

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Procédure

  1. Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.

    Pour plus d'informations concernant les points de contrôle Spark, consultez http://spark.apache.org/docs/latest/streaming-programming-guide.html#checkpointing (en anglais).

  2. En mode Yarn client ou Yarn cluster, vous pouvez activer les logs de l'application Spark de ce Job pour qu'ils soient persistants dans le système de fichiers. Pour ce faire, cochez la case Enable Spark event logging.
    Les paramètres relatifs aux logs Spark s'affichent :
    • Spark event logs directory : saisissez le répertoire où sont enregistrés les événements Spark. Il s'agit de la propriété spark.eventLog.dir.

    • Spark history server address : saisissez l'emplacement du serveur de l'historique. Il s'agit de la propriété spark.yarn.historyServer.address.

    • Compress Spark event logs : si nécessaire, cochez la case pour compresser les logs. Il s'agit de la propriété spark.eventLog.compress.

    Comme l'administrateur de votre cluster peut avoir défini ces propriétés dans les fichiers de configuration du cluster, contactez l'administrateur pour obtenir les valeurs exactes.

  3. Si vous souhaitez imprimer le contexte Spark que votre Job lance dans le log, ajoutez la propriété spark.logConf dans la table Advanced properties et saisissez, entre guillemets doubles, true dans la colonne Value de cette table.

    Comme l'administrateur de votre cluster peut avoir défini ces propriétés dans les fichiers de configuration du cluster, contactez l'administrateur pour obtenir les valeurs exactes.