S3システムにDatabricksからアクセスするためにS3固有のプロパティを追加する - Cloud - 8.0

Spark Batch

Version
Cloud
8.0
Language
日本語
Product
https://talend.poolparty.biz/coretaxonomy/17
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > Sparkバッチ
Last publication date
2024-04-15
S3固有のプロパティをAWS上のDatabricksクラスターのSpark設定に追加します。

始める前に

  • DatabricksのSparkクラスターが正しく作成され、実行されていることと、バージョンが3.5 LTSであることを確認します。詳細は、DatabricksドキュメンテーションでCreate Databricks workspaceをご覧ください。
  • AWSアカウントを持っていること。
  • 使用するS3バケットが適切に作成されており、それにアクセスするための適切な権限があること。
  • Machine Learning コンポーネントかtMatchPredictを使用している場合は、Databricks Runtime Versionの設定がX.X LTS MLになっていること。

手順

  1. Databricksクラスター ページの[Configuration] (設定)タブで、ページ下部の[Spark] (スパーク) タブまでスクロールします。

  2. [Edit] (編集)をクリックして、このページのフィールドを編集可能にします。
  3. [Spark] (スパーク)タブで、S3システムへのアクセスに使う認証情報に関するSparkプロパティを入力します。
    • S3N
      spark.hadoop.fs.s3n.awsAccessKeyId <your_access_key>
      spark.hadoop.fs.s3n.access.key <your_access_key>
      spark.hadoop.fs.s3n.awsSecretAccessKey <your_secret_key>
    • S3A
      spark.hadoop.fs.s3a.awsAccessKeyId <your_access_key>
      spark.hadoop.fs.s3a.access.key <your_access_key>
      spark.hadoop.fs.s3a.awsSecretAccessKey <your_secret_key> 
  4. DatabricksでSpark Streaming Jobsを実行する必要がある場合は、同じ[Spark] (スパーク)タブで、次のプロパティを追加してデフォルトのSparkシリアライザーを定義します。Spark Streamingジョブを実行する予定がない場合は、この手順を無視できます。
    spark.serializer org.apache.spark.serializer.KryoSerializer
  5. Sparkクラスターを再起動します。
  6. Databricksクラスターページの[Spark UI]タブで、[Environment] (環境)をクリックしてプロパティのリストを表示し、前の手順で追加した各プロパティがそのリストに存在することを確認します。