Databricks実行プロファイルを作成 - Cloud

Talend Cloud Management Console for Pipelinesユーザーガイド

Version
Cloud
Language
日本語 (日本)
Product
Talend Cloud
Module
Talend Management Console
Content
デプロイメント > スケジューリング > タスクのスケジューリング
デプロイメント > デプロイ中 > タスクの実行
管理と監視 > プロジェクトの管理
管理と監視 > ユーザーの管理

始める前に

  • Talend Cloud Pipeline Designerのオペレーターまたは管理者の権限が付与されていること。
  • Remote Engine Gen2をセットアップするか、自分のサブスクリプションによってCloud Engine for Designを使用できることを確認すること。Remote Engineの設定手順についてはTalend Remote Engine Gen2クイックスタートガイドを参照してください。

このタスクについて

現在サポートされているのは、Long Term Support (LTS、長期サポート)のDatabricksランタイムバージョンのみです。

手順

  1. [Engines] (エンジン)タブに移動します。
  2. 実行プロファイルを設定するエンジンの名前をクリックします。
  3. [Engine details] (エンジンの詳細)ページで[Run profiles] (プロファイルの実行)タブをクリックします。
  4. [ADD PROFILE] (プロファイルの追加)をクリックします。
  5. 実行プロファイルを適用するエンジンを選択します。
    現在のエンジンがデフォルトで選択されます。
  6. [Databricks]実行プロファイルタイプを選択します。
  7. プロファイルの名前を入力します。
  8. オプション: 実行プロファイルの説明を入力します。
  9. ドロップダウンリストからクラウドプロバイダーを選択します。
    • AWS
    • Azure
  10. Databricks APIエンドポイントを入力します。
    エンドポイントで期待される入力構文はhttps://<DatabricksAccount>.cloud.databricks.comとなります。
  11. オプション: Databricks APIトークンを入力します。
    トークンは、Databricksアカウントの[User Settings] (ユーザー設定) > [Access Tokens] (アクセストークン)メニューにあります。
  12. Databricksのファイルシステムのステージングディレクトリーのアドレスをに入力します。
    dbfs:/tpd-staging/のように、パスはdbfs:/で始まる必要があります。このフォルダーは、Talend Cloud Pipeline Designerで使用されているコネクターの依存項目をすべて保存するために使用されます。

    例え

  13. [Basic configuration] (基本設定)セクションで、マイクロバッチ間隔の数値をミリ秒単位で入力します。
    デフォルト値は5000です。
  14. ドロップダウンリストで、使用するターゲットクラスターのタイプを選択します。
    • 新しいクラスター
    • 既存のクラスター
    既存のクラスターの使用を選択した場合は、そのIDを入力するだけで結構です。
  15. 新しいクラスターを使う場合は次の属性を設定します。
    1. ノードタイプIDを入力します。
      このフィールドによって、Sparkノード用マシンのサイズが決定します。Amazonのノードタイプの詳細は、Amazonのドキュメンテーションを参照してください。
    2. ログの収集先となるDBFS内のフォルダーを定義します。
    3. 使用するマシン数を指定します。
  16. [Advanced configuration] (詳細設定)セクションで[ADD PARAMETER] (パラメーターの追加)をクリックし、パラメーターを作成します。

    例え

    エグゼキュータープロセスごとに使用するメモリの量を設定するには、パラメーターキーにspark.executor.memory、値のフィールドに16gと入力します。
  17. [SAVE] (保存)をクリックします。

タスクの結果

作成された実行プロファイルが、Talend Cloud Management Console[Engines] (エンジン) > [RUN PROFILES] (実行プロファイル)ページにリスト表示されます。Talend Cloud Pipeline Designerで、同じ実行プロファイルがパイプラインのドロップダウンリストに表示されます。

注: クラスターでパイプラインを初めて実行する場合、2回目以降の実行より長い時間がかかります。これは依存項目がDatabricks File System (DBFS)にデプロイされていることが理由です。依存項目をDBFSに手動でアップロードして初回の実行時間を大幅に短縮させるには、この手順に従ってください。