Spark Universalを使ってジョブを実行 - Cloud

Talend Cloud Big Data Studio ユーザーガイド

Version
Cloud
Language
日本語 (日本)
EnrichDitaval
Big Data
Product
Talend Cloud
Module
Talend Studio
Content
ジョブデザインと開発
Spark Universalは、Talend Studioと特定のSparkバージョンの全ビッグデータディストリビューションの互換性があるようにできるメカニズムです。Sparkバージョンを選択して、クラスターへの接続に必要な情報がすべて含まれているHadoop設定JARファイルをアップロードします。

Spark Universalのモードと環境をサポート

Talend Studioは、Sparkのバージョンに応じて、次のモードおよび環境をサポートしています。
  Spark 2.4.x Spark 3.0.x Spark 3.1.x Spark 3.2.x
[Local mode] (ローカルモード)
[Standalone] (スタンドアロン)
[Yarn cluster mode] (Yarnクラスターモード)
Databricks
Dataproc
Cloudera Data Engineering
Kubernetes

Spark Universalディストリビューションをサポート

Talend Studioは、Sparkのバージョンに応じて、Yarnクラスターモードで次のディストリビューションをサポートしています。
Spark 2.4.x
  • Amazon EMR 5.2.x以降
  • CDH 6.x
  • HDP 3.x
Spark 3.0.x
  • Amazon EMR 6.2
  • CDP 7.1
Spark 3.1.x
  • Amazon EMR 6.3.x、6.4.x、6.5.x
たとえば、Amazon EMR 6.2クラスターに接続したい場合は、Spark 3.0バージョンを選択した後に、クラスターに関連する*-site.xmlファイルがすべて含まれるHadoop接続JARファイルをアップロードする必要があります。
注: このディストリビューションリストはすべてを網羅していません。Sparkのバージョンが一致すれば他のディストリビューションでもYarn clusterを使用できますが、Talendによって公式にテストされていないため動作が保証されることはありません。