Terminez la configuration de la connexion Cloudera dans l'onglet Spark configuration de la vue Run de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.
Si vous ne trouvez pas la version de Cloudera ou Hortonworks à utiliser dans la liste déroulante Version, vous pouvez ajouter votre distribution dans les paramètres de distributions dynamiques dans le Studio.
- Sur la liste des versions de distribution, certaines versions ont un libellé Builtin. Ces versions ont été ajoutées par Talend via le mécanisme de distribution dynamique et livrées avec le Studio lors de sa sortie. Elles sont certifiées par Talend et sont donc officiellement supportées et prêtes à l'emploi.
Si vous ne trouvez pas la version de Cloudera à utiliser dans la liste déroulante, vous pouvez ajouter votre distribution dans les paramètres de distributions dynamiques dans le Studio.
- Sur la liste des versions de distribution, certaines versions ont un libellé Builtin. Ces versions ont été ajoutées par Talend via le mécanisme de distribution dynamique et livrées avec le Studio lors de sa sortie. Elles sont certifiées par Talend et sont donc officiellement supportées et prêtes à l'emploi.
Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Big Data de Talend, et ne sont pas applicables aux utilisateurs et utilisatrices de Talend Open Studio for Big Data.
Procédure
Résultats
-
Une fois la connexion configurée, vous pouvez personnaliser les performances de Spark, même si ce n'est pas obligatoire, en suivant la procédure décrite dans :
-
Personnaliser Spark pour les Jobs Apache Batch Spark pour les Jobs Spark Batch.
-
Personnaliser Spark pour les Jobs Apache Spark Streaming pour les Jobs Spark Streaming.
-
-
Il est recommandé d'activer le système de log et de points de contrôle Spark, dans l'onglet de configuration de Spark, dans la vue Run de votre Job Spark, afin de permettre de déboguer et reprendre votre Job Spark lorsqu'une erreur survient :
-
Si vous utilisez Cloudera V5.5+ pour exécuter vos Jobs MapReduce ou vos Jobs Apache Spark Batch, vous pouvez utiliser Cloudera Navigator pour visualiser le lignage d'un flux de données en particulier pour découvrir comment ces données sont générées par un Job.