ビッグデータプラットフォームへの接続のセットアップ - 7.3

Talend Big Data入門ガイド

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Big Data
task
インストールとアップグレード
ジョブデザインと開発
EnrichPlatform
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio

ビッグデータプラットフォームへの接続を[Repository] (リポジトリー)セットアップすると、同じプラットフォームを使用するたびに接続を設定する必要がなくなります。

この例で使用するビッグデータプラットフォームは、Azure Data Lake Storage Gen2とともにDatabricks V5.4クラスターです。

始める前に

このタスクについて

最初にクラスター側でDatabricksクラスターを構成してから、Studioで接続メタデータを設定する必要があります。

手順

  1. Databricksクラスター ページの[Configuration] (設定)タブで、ページ下部の[Spark] (スパーク) タブまでスクロールします。

    例え

  2. [Edit] (編集)をクリックして、このページのフィールドを編集可能にします。
  3. [Spark] (スパーク)タブで、Azure Storageシステムへのアクセスに使用する資格情報に関するSparkプロパティを1行ごとに入力します:
    • アカウントキーを提供するパラメーター:

      spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>

      このキーは、使用するストレージアカウントに関連付けられています。このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。どのアカウントにも使用できるキーが2つあり、デフォルトでは、どちらもこのアクセスに使用できます。

      使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることを確認してください。

    • 使用するADLSファイルシステムがまだ存在しない場合は、次のパラメーターを追加します:

      spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true
    • DatabricksでSpark Streaming Jobsを実行する必要がある場合は、同じ[Spark] (スパーク)タブで、次のプロパティを追加してデフォルトのSparkシリアライザーを定義します。Sparkストリーミングジョブを実行する予定がない場合は、この手順を無視できます。
      spark.serializer org.apache.spark.serializer.KryoSerializer
  4. Sparkクラスターを再起動します。
  5. Databricksクラスターページの[Spark UI]タブで、[Environment] (環境)をクリックしてプロパティのリストを表示し、前の手順で追加した各プロパティがそのリストに存在することを確認します。
  6. Studioの[Repository] (リポジトリー)ツリービューで、[Metadata] (メタデータ)を展開し、[Hadoop cluster] (Hadoopクラスター)を右クリックします。
  7. コンテキストメニューから[Create Hadoop cluster] (Hadoopクラスターの作成)を選択し、[Hadoop cluster connection] (Hadoopクラスターの接続)ウィザードを開きます。
  8. [Name] (名前)[Description] (説明)など、この接続に関する一般情報を入力し、[Next] (次へ)をクリックして[Hadoop configuration import wizard] (Hadoop設定インポートウィザード)を開きます。これを使用して、すぐに使える設定をインポートすることができます。
  9. [Enter manually Hadoop services] (Hadoopサービスを手動で入力)チェックボックスを選択して、作成するDatabricks接続の設定情報を手動で入力します。
  10. [Finish] (終了)をクリックし、このインポートウィザードを閉じます。
  11. From the [Distribution] (配布)リストから[Databricks]を選択し、[Version] (バージョン)リストから5.4 (Apache Spark 2.4.3, Scala 2.11を含む)を選択します。
  12. [Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。
  13. [Cluster ID] (クラスターID)フィールドに、使用する DatabricksクラスターのIDを入力します。このIDは、Sparkクラスターのspark.databricks.clusterUsageTags.clusterIdプロパティの値です。このプロパティは、クラスターの[Spark UI]ビューの[Environment] (環境)タブのプロパティリストにあります。
    このIDはDatabricksクラスターのURLからでも容易に見つかります。このURLのcluster/の直後に置かれています。
  14. [Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、AzureドキュメンテーションでToken management (トークン管理)を参照してください。
  15. [DBFS dependencies folder] (DBFS依存性フォルダー)フィールドに、Databricksファイルシステムでのジョブ依存項目の保存にランタイムで使用するディレクトリを入力し、このディレクトリーの末尾にスラッシュ( / )を入力します。たとえば/jars/と入力し、依存項目をjarsという名前のフォルダーに保管します。このフォルダーが存在しない場合、ここで作成されます。
  16. [Finish] (完了)をクリックして変更を確定し、ウィザードを閉じます。

タスクの結果

新しい接続この例ではmovie_library という名前が、[Repository] (リポジトリー)ツリービューの[Hadoop cluster] (Hadoopクラスター)フォルダーの下に表示されます。