Terminez la configuration de la connexion à Databricks dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.
Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Big Data de Talend, et ne sont pas applicables aux utilisateurs et utilisatrices de Talend Open Studio for Big Data.
Avant de commencer
Assurez-vous d'un seul Job est envoyé pour s'exécuter sur le même cluster Databricks à la fois et n'envoyez pas d'autre Job avant la fin de l'exécution du premier. Chaque exécution redémarrant le cluster, les Jobs qui sont lancés en parallèle s'interrompent mutuellement et entraînent l'échec de leur exécution.
Procédure
Standalone |
|
Résultats
Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.
Pour plus d'informations concernant les points de contrôle Spark, consultez http://spark.apache.org/docs/latest/streaming-programming-guide.html#checkpointing (en anglais).