Logs et points de contrôle des activités de votre Job Spark Apache - Cloud

Il est recommandé d'activer le système de points de contrôle et de logs Spark dans l'onglet Spark configuration de la vue Run de votre Job Spark pour faciliter le débogage et reprendre votre Job Spark lorsque vous êtes confronté à des problèmes.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Procédure

Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.

Pour plus d'informations concernant l'opération relative aux checkpoints de Spark, consultez la documentation Spark officielle.
En mode Yarn client ou Yarn cluster, vous pouvez activer les logs de l'application Spark de ce Job pour qu'ils soient persistants dans le système de fichiers. Pour ce faire, cochez la case Enable Spark event logging.
Les paramètres relatifs aux logs Spark s'affichent :
- Spark event logs directory : saisissez le répertoire où sont enregistrés les événements Spark. Il s'agit de la propriété spark.eventLog.dir.
- Spark history server address : saisissez l'emplacement du serveur de l'historique. Il s'agit de la propriété spark.yarn.historyServer.address.
- Compress Spark event logs : si nécessaire, cochez la case pour compresser les logs. Il s'agit de la propriété spark.eventLog.compress.
Comme l'administrateur·trice de votre cluster peut avoir défini ces propriétés dans les fichiers de configuration du cluster, contactez l'administrateur pour obtenir les valeurs exactes.
Si vous souhaitez imprimer le contexte Spark que votre Job lance dans le log, ajoutez la propriété spark.logConf dans la table Advanced properties et saisissez, entre guillemets doubles, true dans la colonne Value de cette table.

Comme l'administrateur·trice de votre cluster peut avoir défini ces propriétés dans les fichiers de configuration du cluster, contactez l'administrateur pour obtenir les valeurs exactes.

Logs et points de contrôle des activités de votre Job Spark Apache - Cloud - 8.0

Spark Batch

Procédure