-
[Use pool] (プールを使用): Databricksプールを活用する場合はこのチェックボックスを選択します。選択した場合は、[Spark configuration] (Spark設定)でクラスターIDではなくプールIDを指定する必要があります。また、[Cluster type] (クラスタータイプ)ドロップダウンリストから、[Job cluster] (ジョブクラスター)を選択する必要があります。
-
[Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。
-
[Cluster ID] (クラスターID)フィールドに、使用する DatabricksクラスターのIDを入力します。このIDは、Sparkクラスターのspark.databricks.clusterUsageTags.clusterIdプロパティの値です。これらのプロパティは、クラスターの[Spark UI]ビューの[Environment] (環境)タブのプロパティリストにあります。
このIDはDatabricksクラスターのURLからでも容易に見つかります。このURLのcluster/の直後に置かれています。
-
[Use Pool] (プールを使用)オプションを選択した場合は、使用するDatabricksプールのIDを[Pool ID] (プールID)フィールドに入力する必要があります。このIDは、使用するプールのDatabricksInstancePoolIdキーの値です。このキーは、使用するプールの[Configuration] (設定)タブの[Tags] (タグ)の下で見つかります。また、プールを使用するクラスターのタグ内にもあります。
このIDはDatabricksプールのURLでもすぐに見つかります。このURLのcluster/instance-pools/view/の直後に置かれています。
-
[Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、公式AzureドキュメンテーションからのPersonal access tokens (パーソナルアクセストークン)をご覧ください。
-
[DBFS dependencies folder] (DBFS依存項目フォルダー)フィールドに、Databricksファイルシステムでのジョブ依存項目の保存にランタイムで使用するディレクトリーを入力し、このディレクトリーの末尾にスラッシュ( / )を入力します。たとえば、/jars/と入力して、依存項目をjarsという名前のフォルダーに保管します。このフォルダーが存在しない場合、ここで作成されます。
-
[Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒)): Studio TalendがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。たとえば、このステータスは[Pending] (保留中)または[Running] (実行中)になります。
デフォルト値は300000で30秒です。この間隔は、ジョブステータスを正しく取得できるようDatabricksによって推奨されています。
-
[Cluster type] (クラスタータイプ): 使用するクラスターのタイプとして、[Job clusters] (ジョブクラスター)か[All-purpose clusters] (汎用クラスター)を選択します。
[Advanced properties] (詳細プロパティ)テーブルで定義したカスタムプロパティは、ジョブクラスターによってランタイムで自動的に有効になります。
- [Use policy] (使用ポリシー): このチェックボックスをオンにして、ジョブクラスターで使用するポリシーの名前を入力します。ポリシーを使用して、ルールのセットに基づいてクラスターを設定する機能を制限できます。クラスターポリシーの詳細は、Databricksの公式ドキュメントでManage cluster policiesをご覧ください。
- [Autoscale] (自動スケーリング): このチェックボックスをオンまたはオフにして、ジョブクラスターで使用するワーカーの数を定義します。
- このチェックボックスを選択すると、自動スケーリングが有効になります。次に、[Min workers] (最小ワーカー)にワーカーの最小数、[Max workers] (最大ワーカー)に最大ワーカー数を定義します。ジョブクラスターは、ワークロードに基づいてこのスコープ内でスケールアップおよびスケールダウンされます。
Databricksのドキュメンテーションによると、自動スケーリングはDatabricksランタイムバージョン3.0以降で最適に機能します。
- このチェックボックスをオフにすると、自動スケーリングは無効になります。次に、ジョブクラスターに必要なワーカーの数を定義します。この数には、Sparkドライバーノードは含まれません。
- [Node type] (ノードタイプ)および[Driver node type] (ドライバーノードタイプ): ワーカーとSparkドライバーノードのノードタイプを選択します。これらのタイプは、ノードの容量とDatabricksによる価格設定を決定します。
これらのノードタイプと使用するDatabricksユニットの詳細は、DatabricksドキュメンテーションでSupported Instance Types (サポートされるインスタンスタイプ)をご覧ください。
- [Elastic disk] (エラスティックディスク): このチェックボックスを選択すると、Sparkワーカーのディスクスペースが不足している時に、ジョブクラスターが自動的にディスクスペースを拡大できるようになります。
このエラスティックディスク機能の詳細は、Databricksのドキュメンテーションでローカルストレージの自動スケーリングに関するセクションを検索してください。
- [SSH public key] (SSHパブリックキー): クラスターにSSHアクセスがセットアップされている場合は、生成されたSSHキーペアのパブリックキーを入力します。このパブリックキーは、ジョブクラスターの各ノードに自動的に追加されます。SSHアクセスが設定されていない場合、このフィールドは無視してください。
クラスターへのSSHアクセスの詳細は、公式DatabricksドキュメンテーションからSSH access to clusters(クラスターへのSSHアクセス)をご覧ください。
- [Configure cluster log] (クラスターログの設定): このチェックボックスを選択すると、Sparkログを長期間保存する場所を定義できます。このストレージシステムは、S3またはDBFSです。
- [Do not restart the cluster when submitting] (送信時にクラスターを再起動しない): Studio Talendがジョブを送信する時にStudio Talendがクラスターを再起動しないようにする場合は、このチェックボックスを選択します。ただしジョブで変更を行う場合は、このチェックボックスをオフにし、Studio Talendがクラスターを再起動してその変更が反映されるようにします。