Azure StorageシステムにDatabricksからアクセスするためにAzure固有のプロパティを追加する - 7.3

Databricks

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション > Databricks
ジョブデザインと開発 > ジョブデザイン > Serverless > Databricks
Last publication date
2024-02-22

クラスターがAzure Storageにアクセスできるように、Azure固有のプロパティをDatabricksクラスターのSpark設定に追加します。

この操作が必要なのは、Apache SparkのTalendジョブでAzure Blob StorageまたはAzure Data Lake StorageをDatabricksと併用する場合のみです。

始める前に

  • DatabricksのSparkクラスターが正しく作成され、実行されていることと、バージョンがStudioでサポートされていることを確認します。Azure Data Lake Storage Gen 2を使う場合は、Databricks 5.4のみがサポートされています。

    詳細は、Azureドキュメンテーションの「[Create Databricks workspace] (Databricksワークスペースの作成)」をご覧ください。

  • Azureアカウントを持っています。
  • 使用するAzure Blob StorageまたはAzure Data Lake Storageサービスが適切に作成されており、それにアクセスするための適切な権限があります。Azure Storageの詳細は、AzureドキュメントのAzure Storageチュートリアルをご覧ください。

手順

  1. Databricksクラスター ページの[Configuration] (設定)タブで、ページ下部のSpark タブまでスクロールします。

  2. [Edit] (編集)をクリックして、このページのフィールドを編集可能にします。
  3. Sparkタブで、Azure Storageシステムへのアクセスに使う認証情報に関するSparkプロパティを入力します。
    オプション 説明
    Azure Blob Storage

    Azure Blob StorageとAzure Databricksを併用する必要がある場合は、次のSparkプロパティを追加します:

    • アカウントキーを提供するパラメーター:

      spark.hadoop.fs.azure.account.key.<storage_account>.blob.core.windows.net <key>

      使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。

    • 既存のファイルにデータを追加する必要がある場合は、このパラメーターを追加します:

      spark.hadoop.fs.azure.enable.append.support true
    Azure Data Lake Storage (Gen 1) Azure Data Lake Storage Gen1とDatabricksを併用する必要がある場合は、次のSparkプロパティを1行ごとに追加します:
    spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
    spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
    spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
    spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token
    Azure Data Lake Storage (Gen 2)

    Azure Data Lake Storage Gen2とDatabricksを併用する必要がある場合は、次のSparkプロパティを1行ごとに追加します:

    • アカウントキーを提供するパラメーター:

      spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>

      このキーは、使用するストレージアカウントに関連付けられています。このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。どのアカウントにも使えるキーが2つあり、このアクセスにはデフォルトでどちらのキーも使用できます。

      使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。

    • 使用するADLSファイルシステムがまだ存在しない場合は、次のパラメーターを追加します:

      spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true
    アプリケーションIDと認証キーを見つける方法は、AzureドキュメンテーションでGet application ID and authentication keyをご覧ください。同じドキュメンテーションのGet tenant IDには、テナントIDを見つける方法も説明されています。
  4. DatabricksでSpark Streaming Jobsを実行する必要がある場合は、同じSparkタブで、次のプロパティを追加してデフォルトのSparkシリアライザーを定義します。Spark Streamingジョブを実行する予定がない場合は、この手順を無視できます。
    spark.serializer org.apache.spark.serializer.KryoSerializer
  5. Sparkクラスターを再起動します。
  6. Databricksクラスターページの[Spark UI]タブで、[Environment] (環境)をクリックしてプロパティのリストを表示し、前の手順で追加した各プロパティがそのリストに存在することを確認します。