ビッグデータプラットフォームに接続を設定 - 8.0

Talend Data Fabric 入門ガイド

Version
8.0
Language
日本語 (日本)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング

ビッグデータプラットフォームへの接続を[Repository] (リポジトリー)に設定すると、同じプラットフォームを使用するたびに接続を設定する必要がなくなります。

この例で使用するビッグデータプラットフォームは、Azure Data Lake Storage Gen2と共にDatabricks V5.4クラスターです。

始める前に

このタスクについて

最初にクラスター側でDatabricksクラスターを構成してから、Studioで接続メタデータを設定する必要があります。

手順

  1. Databricksクラスター ページの[Configuration] (設定)タブで、ページ下部の[Spark] (スパーク) タブまでスクロールします。

    例え

  2. [Edit] (編集)をクリックして、このページのフィールドを編集可能にします。
  3. [Spark] (スパーク)タブで、Azure Storageシステムへのアクセスに使用する認証情報に関するSparkプロパティを1行ごとに入力します:
    • アカウントキーを提供するパラメーター:

      spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>

      このキーは、使用するストレージアカウントに関連付けられています。このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。どのアカウントにも使用できるキーが2つあり、デフォルトでは、どちらもこのアクセスに使用できます。

      使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。

    • 使用するADLSファイルシステムがまだ存在しない場合は、次のパラメーターを追加します:

      spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true
    • DatabricksでSpark Streaming Jobsを実行する必要がある場合は、同じ[Spark] (スパーク)タブで、次のプロパティを追加してデフォルトのSparkシリアライザーを定義します。Spark Streamingジョブを実行する予定がない場合は、この手順を無視できます。
      spark.serializer org.apache.spark.serializer.KryoSerializer
  4. Sparkクラスターを再起動します。
  5. Databricksクラスターページの[Spark UI]タブで、[Environment] (環境)をクリックしてプロパティのリストを表示し、前の手順で追加した各プロパティがそのリストに存在することを確認します。
  6. Studioの[Repository] (リポジトリー)ツリービューで、[Metadata] (メタデータ)を展開し、[Hadoop cluster] (Hadoopクラスター)を右クリックします。
  7. コンテキストメニューから[Create Hadoop cluster] (Hadoopクラスターの作成)を選択し、[Hadoop cluster connection] (Hadoopクラスターの接続)ウィザードを開きます。
  8. [Name] (名前)[Description] (説明)など、この接続に関する一般情報を入力し、[Next] (次へ)をクリックして[Hadoop configuration import wizard] (Hadoop設定インポートウィザード)を開きます。これを使用して、すぐに使える設定をインポートできます。
  9. [Enter manually Hadoop services] (Hadoopサービスを手動で入力)チェックボックスをオンにして、作成するDatabricks接続の設定情報を手動で入力します。
  10. [Finish] (終了)をクリックし、このインポートウィザードを閉じます。
  11. From the [Distribution] (配布)リストから[Databricks]を選択し、[Version] (バージョン)リストから5.4 (Apache Spark 2.4.3, Scala 2.11を含む)を選択します。
  12. [Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。
  13. [Cluster ID] (クラスターID)フィールドに、使用する DatabricksクラスターのIDを入力します。このIDは、Sparkクラスターのspark.databricks.clusterUsageTags.clusterIdプロパティの値です。このプロパティは、クラスターの[Spark UI]ビューの[Environment] (環境)タブのプロパティリストにあります。
    このIDはDatabricksクラスターのURLからでも容易に見つかります。このURLのcluster/の直後に置かれています。
  14. [Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、Azureドキュメンテーション
  15. [DBFS dependencies folder] (DBFS依存項目フォルダー)フィールドに、Databricksファイルシステムでのジョブ依存項目の保存にランタイムで使用するディレクトリーを入力し、このディレクトリーの末尾にスラッシュ( / )を入力します。たとえば、/jars/と入力して、依存項目をjarsという名前のフォルダーに保管します。このフォルダーが存在しない場合、ここで作成されます。
  16. [Finish] (完了)をクリックして変更を確定し、ウィザードを閉じます。

タスクの結果

新しい接続この例ではmovie_library という名前が、[Repository] (リポジトリー)ツリービューの[Hadoop cluster] (Hadoopクラスター)フォルダーの下に表示されます。