対象製品...
Big Data
Big Data Platform
Cloud Big Data
Cloud Big Data Platform
Cloud Data Fabric
Data Fabric
Real-Time Big Data Platform
Spark Universalは、Talend Studioと特定のSparkバージョンの全ビッグデータディストリビューションの互換性があるようにできるメカニズムです。Sparkバージョンを選択して、クラスターへの接続に必要な情報がすべて含まれているHadoop設定JARファイルをアップロードします。
Spark Universalのモードと環境をサポート
Talend Studioは、Sparkのバージョンに応じて、次のモードおよび環境をサポートしています。
Spark 2.4.x | Spark 3.0.x | Spark 3.1.x | Spark 3.2.x | Spark 3.3.x | Spark 3.4.x | |
[Local mode] (ローカルモード) | ||||||
[Standalone] (スタンドアロン) | ||||||
[Yarn cluster mode] (Yarnクラスターモード) | ||||||
Databricks | ||||||
Dataproc | ||||||
Cloudera Data Engineering | ||||||
Kubernetes | ||||||
Spark-submitスクリプト | ||||||
Synapse | ||||||
HDInsight | ||||||
EMR Serverless |
注:
- Spark Universal 3.2.xと3.3.xによるAzure Synapse Analyticsの使用は、Spark Batchジョブのみでのサポートとなっています。
- Spark Universal 3.3.xによるSpark-submitスクリプトはSpark Batchジョブでのみサポートされています。
Spark Universalディストリビューションをサポート
Talend Studioは、Sparkのバージョンに応じて、Yarnクラスターモードで次のディストリビューションをサポートしています。
たとえば、Amazon EMR 6.2クラスターに接続したい場合は、Spark 3.0バージョンを選択した後に、クラスターに関連する
Spark 2.4.x |
|
Spark 3.0.x |
|
Spark 3.1.x |
|
Spark 3.2.x |
|
Spark 3.3.x |
|
*-site.xml
ファイルがすべて含まれるHadoop接続JARファイルをアップロードする必要があります。このディストリビューションリストはすべてを網羅していません。Sparkのバージョンが一致すれば他のディストリビューションでもYarn clusterを使用できますが、Talendによって公式にテストされていないため動作が保証されることはありません。