Databricksクラスターについて - 7.3

Databricks

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション > Databricks
ジョブデザインと開発 > ジョブデザイン > Serverless > Databricks

このセクションで説明する情報は、ファイルまたはサブスクリプションビッグデータユーザーのみを対象としています。Talend Open Studio for Big Dataのユーザーには適用されません。または、AzureとAWSの両方のDatabricksディストリビューションでSparkジョブを実行するユーザーのみを対象としています。

Databricksクラスターとは、Spark Streaming、Spark Batchジョブを実行できる計算のリソースと設定のセットのことです。Talend Studioでは、対話型クラスターまたは一時クラスターでSparkジョブを実行できます。
注: デフォルトでは、Sparkジョブは対話型クラスターで実行されます。この操作は、Sparkジョブの[Run] (実行)ビューにある[Spark]設定タブで管理できます。詳細は、SparkジョブのAzure Databricks接続パラメーターの定義を参照してください。

Talend Studioの対話型クラスターでジョブを実行する場合は、基本的にどのワークロードでも実行できます。対話型クラスターは永続的に作成されますが、必要であれば手動で終了して再起動できます。複数のユーザーでこのようなクラスターを共有し、共同でインタラクティブな分析を行うことができます。

Talend Studioの一時クラスターでジョブを実行する場合は、ジョブの処理がより高速になり、処理の終了後クラスターが自動シャットダウンするため、使用コストが削減されます。一時クラスターはSpark設定に従って作成され、シャットダウンすると再起動できなくなります。