Ajouter des propriétés spécifiques S3 pour accéder au système S3 depuis Databricks - Cloud - 8.0

Spark Streaming

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Streaming
Last publication date
2024-02-21
Ajoutez des propriétés spécifiques S3 à la configuration Spark de votre cluster Databricks sur AWS.

Avant de commencer

  • Assurez-vous que votre cluster Spark dans Databricks a bien été créé, qu'il est en cours d'exécution et que sa version est 3.5 LTS. Pour plus d'informations, consultez Create Databricks workspace dans la documentation Databricks (en anglais).
  • Vous avez un compte AWS.
  • Le bucket S3 utilisé a bien été créé et vous disposez des autorisations suffisantes pour y accéder.
  • Lorsque vous utilisez un composant d'apprentissage automatique (Machine Learning) ou un tMatchPredict, vous avez configuré le paramètre Databricks Runtime Version à X.X LTS ML.

Procédure

  1. Dans l'onglet Configuration de la page de votre cluster Databricks, faites défiler jusqu'à l'onglet Spark au bas de la page.

    Exemple

  2. Cliquez sur Edit afin de rendre modifiables les champs de cette page.
  3. Dans l'onglet Spark, saisissez les propriétés Spark concernant les autorisations à utiliser pour accéder à votre système S3.
    • S3N
      spark.hadoop.fs.s3n.awsAccessKeyId <your_access_key>
      spark.hadoop.fs.s3n.access.key <your_access_key>
      spark.hadoop.fs.s3n.awsSecretAccessKey <your_secret_key>
    • S3A
      spark.hadoop.fs.s3a.awsAccessKeyId <your_access_key>
      spark.hadoop.fs.s3a.access.key <your_access_key>
      spark.hadoop.fs.s3a.awsSecretAccessKey <your_secret_key> 
  4. Si vous devez exécuter des Jobs Spark Streaming avec Databricks, dans le même onglet Spark , ajoutez la propriété suivante pour définir un sérialiseur Spark par défaut. Si vous ne souhaitez pas exécuter de Jobs Spark Streaming, ignorez cette étape.
    spark.serializer org.apache.spark.serializer.KryoSerializer
  5. Redémarrez votre cluster Spark.
  6. Dans l'onglet Spark UI de la page de votre cluster Databricks, cliquez sur Environment pour afficher la liste des propriétés et vérifiez que chaque propriété ajoutée dans les étapes précédentes est présente dans la liste.