Azure StorageシステムにDatabricksからアクセスするためにAzure固有のプロパティを追加する

クラスターがAzure Storageにアクセスできるように、Azure固有のプロパティをDatabricksクラスターのSpark設定に追加します。

この操作が必要なのは、Apache SparkのTalendジョブでAzure Blob StorageまたはAzure Data Lake StorageをDatabricksと併用する場合のみです。

始める前に

DatabricksのSparkクラスターが正しく作成され、実行されていることと、バージョンがStudioでサポートされていることを確認します。Azure Data Lake Storage Gen 2を使う場合は、Databricks 5.4のみがサポートされています。

詳細は、Azureドキュメンテーションの「[Create Databricks workspace] (Databricksワークスペースの作成)」をご覧ください。
Azureアカウントを持っています。
使用するAzure Blob StorageまたはAzure Data Lake Storageサービスが適切に作成されており、それにアクセスするための適切な権限があります。Azure Storageの詳細は、AzureドキュメントのAzure Storageチュートリアルをご覧ください。

手順

Databricksクラスターページの[Configuration] (設定)タブで、ページ下部の[Spark] (スパーク) タブまでスクロールします。
例
[Edit] (編集)をクリックして、このページのフィールドを編集可能にします。

[Spark] (スパーク)タブで、Azure Storageシステムへのアクセスに使う認証情報に関するSparkプロパティを入力します。

オプション説明

Azure Blob Storage

オプション	説明
Azure Blob Storage	Azure Blob StorageとAzure Databricksを併用する必要がある場合は、次のSparkプロパティを追加します: アカウントキーを提供するパラメーター： `spark.hadoop.fs.azure.account.key.<storage_account>.blob.core.windows.net <key>` 使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。既存のファイルにデータを追加する必要がある場合は、このパラメーターを追加します: `spark.hadoop.fs.azure.enable.append.support true`
Azure Data Lake Storage (Gen 1)	Azure Data Lake Storage Gen1とDatabricksを併用する必要がある場合は、次のSparkプロパティを1行ごとに追加します: `spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential spark.hadoop.dfs.adls.oauth2.client.id <your_app_id> spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key> spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token`
Azure Data Lake Storage (Gen 2)	Azure Data Lake Storage Gen2とDatabricksを併用する必要がある場合は、次のSparkプロパティを1行ごとに追加します: アカウントキーを提供するパラメーター： `spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>` このキーは、使用するストレージアカウントに関連付けられています。このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。どのアカウントにも使えるキーが2つあり、このアクセスにはデフォルトでどちらのキーも使用できます。使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。使用するADLSファイルシステムがまだ存在しない場合は、次のパラメーターを追加します: `spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true`

Azure Blob StorageとAzure Databricksを併用する必要がある場合は、次のSparkプロパティを追加します:

アカウントキーを提供するパラメーター：
```
spark.hadoop.fs.azure.account.key.<storage_account>.blob.core.windows.net <key>
```
使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。
既存のファイルにデータを追加する必要がある場合は、このパラメーターを追加します:
```
spark.hadoop.fs.azure.enable.append.support true
```

Azure Data Lake Storage (Gen 1)

Azure Data Lake Storage Gen1とDatabricksを併用する必要がある場合は、次のSparkプロパティを1行ごとに追加します:

spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token

Azure Data Lake Storage (Gen 2)

Azure Data Lake Storage Gen2とDatabricksを併用する必要がある場合は、次のSparkプロパティを1行ごとに追加します:

アカウントキーを提供するパラメーター：
```
spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>
```
このキーは、使用するストレージアカウントに関連付けられています。このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。どのアカウントにも使えるキーが2つあり、このアクセスにはデフォルトでどちらのキーも使用できます。

使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。
使用するADLSファイルシステムがまだ存在しない場合は、次のパラメーターを追加します:
```
spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true
```

アプリケーションIDと認証キーを見つける方法の詳細は、AzureドキュメンテーションでGet application ID and authentication keyをご覧ください。同じドキュメンテーションのGet tenant IDには、テナントIDを見つける方法も説明されています。

DatabricksでSpark Streaming Jobsを実行する必要がある場合は、同じ[Spark] (スパーク)タブで、次のプロパティを追加してデフォルトのSparkシリアライザーを定義します。Spark Streamingジョブを実行する予定がない場合は、この手順を無視できます。
```
spark.serializer org.apache.spark.serializer.KryoSerializer
```
Sparkクラスターを再起動します。
Databricksクラスターページの[Spark UI]タブで、[Environment] (環境)をクリックしてプロパティのリストを表示し、前の手順で追加した各プロパティがそのリストに存在することを確認します。

Azure StorageシステムにDatabricksからアクセスするためにAzure固有のプロパティを追加する - 7.3

Azure Data Lake Store

始める前に

手順

例