Ajouter des propriétés spécifiques S3 pour accéder au système S3 depuis Databricks - 7.3

Databricks

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Création de Jobs > Distributions Hadoop > Databricks
Création et développement > Création de Jobs > Serverless > Databricks
Ajoutez des propriétés spécifiques S3 à la configuration Spark de votre cluster Databricks sur AWS.

Avant de commencer

  • Assurez-vous que votre cluster Spark dans Databricks a bien été créé, qu'il est en cours d'exécution et que sa version est 3.5 LTS. Pour plus d'informations, consultez Create Databricks workspace dans la documentation Databricks (en anglais).
  • Vous avez un compte AWS.
  • Le bucket S3 utilisé a bien été créé et vous disposez des autorisations suffisantes pour y accéder.

Procédure

  1. Dans l'onglet Configuration de la page de votre cluster Databricks, faites défiler jusqu'à l'onglet Spark au bas de la page.

    Exemple

  2. Cliquez sur Edit afin de rendre modifiables les champs de cette page.
  3. Dans l'onglet Spark, saisissez les propriétés Spark concernant les autorisations à utiliser pour accéder à votre système S3.
    • S3N
      spark.hadoop.fs.s3n.awsAccessKeyId <your_access_key>
      spark.hadoop.fs.s3n.access.key <your_access_key>
      spark.hadoop.fs.s3n.awsSecretAccessKey <your_secret_key>
    • S3A
      spark.hadoop.fs.s3a.awsAccessKeyId <your_access_key>
      spark.hadoop.fs.s3a.access.key <your_access_key>
      spark.hadoop.fs.s3a.awsSecretAccessKey <your_secret_key> 
  4. Si vous devez exécuter des Jobs Spark Streaming avec Databricks, dans le même onglet Spark , ajoutez la propriété suivante pour définir un sérialiseur Spark par défaut. Si vous ne souhaitez pas exécuter de Jobs Spark Streaming, ignorez cette étape.
    spark.serializer org.apache.spark.serializer.KryoSerializer
  5. Redémarrez votre cluster Spark.
  6. Dans l'onglet Spark UI de la page de votre cluster Databricks, cliquez sur Environment pour afficher la liste des propriétés et vérifiez que chaque propriété ajoutée dans les étapes précédentes est présente dans la liste.