AzureストレージシステムにDatabricksからアクセスするためにAzure固有のプロパティを追加する - Cloud - 8.0

Azure Data Lake Store

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storeコンポーネント
データガバナンス > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storeコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storeコンポーネント

クラスターがAzure Storageにアクセスできるように、Azure固有のプロパティをDatabricksクラスターのSpark設定に追加します。

この操作が必要なのは、Apache SparkのTalendジョブでAzure Blob StorageまたはAzure Data Lake StorageをDatabricksと併用する場合のみです。

始める前に

  • DatabricksのSparkクラスターが正しく作成され、実行されていることと、バージョンがStudioでサポートされていることを確認します。Azure Data Lake Storage Gen 2を使う場合は、Databricks 5.4のみがサポートされています。

    詳細は、Azureドキュメンテーションの「[Create Databricks workspace] (Databricksワークスペースの作成)」を参照してください。

  • Azureアカウントを持っています。
  • 使用するAzure Blob StorageまたはAzure Data Lake Storageサービスが適切に作成されており、それにアクセスするための適切な権限があります。Azure Storageの詳細は、AzureドキュメントのAzure Storageチュートリアルを参照してください。
  • Machine Learning コンポーネントかtMatchPredictを使用している場合は、Databricks Runtime Versionの設定がX.X LTS MLになっていること。

手順

  1. Databricksクラスター ページの[Configuration] (設定)タブで、ページ下部の[Spark] (スパーク) タブまでスクロールします。

    例え

  2. [Edit] (編集)をクリックして、このページのフィールドを編集可能にします。
  3. [Spark] (スパーク)タブで、Azure Storageシステムへのアクセスに使う認証情報に関するSparkプロパティを入力します。
    オプション 説明
    Azure Blob Storage

    Azure Blob StorageとAzure Databricksを併用する必要がある場合は、次のSparkプロパティを追加します:

    • アカウントキーを提供するパラメーター:

      spark.hadoop.fs.azure.account.key.<storage_account>.blob.core.windows.net <key>

      使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。

    • 既存のファイルにデータを追加する必要がある場合は、このパラメーターを追加します:

      spark.hadoop.fs.azure.enable.append.support true
    Azure Data Lake Storage (Gen 1) Azure Data Lake Storage Gen1とDatabricksを併用する必要がある場合は、次のSparkプロパティを1行ごとに追加します:
    spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
    spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
    spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
    spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token
    Azure Data Lake Storage (Gen 2)

    Azure Data Lake Storage Gen2とDatabricksを併用する必要がある場合は、次のSparkプロパティを1行ごとに追加します:

    • アカウントキーを提供するパラメーター:

      spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>

      このキーは、使用するストレージアカウントに関連付けられています。このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。どのアカウントにも使用できるキーが2つあり、デフォルトでは、どちらもこのアクセスに使用できます。

      使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。

    • 使用するADLSファイルシステムがまだ存在しない場合は、次のパラメーターを追加します:

      spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true
    アプリケーションIDと認証キーを見つける方法の詳細は、AzureドキュメンテーションでGet application ID and authentication keyを参照してください。同じドキュメンテーションのGet tenant IDには、テナントIDを見つける方法も説明されています。
  4. DatabricksでSpark Streaming Jobsを実行する必要がある場合は、同じ[Spark] (スパーク)タブで、次のプロパティを追加してデフォルトのSparkシリアライザーを定義します。Spark Streamingジョブを実行する予定がない場合は、この手順を無視できます。
    spark.serializer org.apache.spark.serializer.KryoSerializer
  5. Sparkクラスターを再起動します。
  6. Databricksクラスターページの[Spark UI]タブで、[Environment] (環境)をクリックしてプロパティのリストを表示し、前の手順で追加した各プロパティがそのリストに存在することを確認します。