Spark Universalを使ってジョブを実行 - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2023-09-21
対象製品...

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Spark Universalは、Talend Studioと特定のSparkバージョンの全ビッグデータディストリビューションの互換性があるようにできるメカニズムです。Sparkバージョンを選択して、クラスターへの接続に必要な情報がすべて含まれているHadoop設定JARファイルをアップロードします。

Spark Universalのモードと環境をサポート

Talend Studioは、Sparkのバージョンに応じて、次のモードおよび環境をサポートしています。
  Spark 2.4.x Spark 3.0.x Spark 3.1.x Spark 3.2.x Spark 3.3.x Spark 3.4.x
[Local mode] (ローカルモード)
[Standalone] (スタンドアロン)
[Yarn cluster mode] (Yarnクラスターモード)
Databricks
Dataproc
Cloudera Data Engineering
Kubernetes
Spark-submitスクリプト
Synapse
HDInsight
EMR Serverless
注:
  • Spark Universal 3.2.xと3.3.xによるAzure Synapse Analyticsの使用は、Spark Batchジョブのみでのサポートとなっています。
  • Spark Universal 3.3.xによるSpark-submitスクリプトはSpark Batchジョブでのみサポートされています。

Spark Universalディストリビューションをサポート

Talend Studioは、Sparkのバージョンに応じて、Yarnクラスターモードで次のディストリビューションをサポートしています。
Spark 2.4.x
  • Amazon EMR 5.2.x以降
  • CDH 6.x
  • HDP 3.x
Spark 3.0.x
  • Amazon EMR 6.2
  • CDP 7.1
Spark 3.1.x
  • Amazon EMR 6.3.x、6.4.x、6.5.x
Spark 3.2.x
  • Amazon EMR 6.6.0および6.7.0
Spark 3.3.x
  • Amazon EMR 6.8.0、6.9.0、6.10.0
たとえば、Amazon EMR 6.2クラスターに接続したい場合は、Spark 3.0バージョンを選択した後に、クラスターに関連する*-site.xmlファイルがすべて含まれるHadoop接続JARファイルをアップロードする必要があります。

このディストリビューションリストはすべてを網羅していません。Sparkのバージョンが一致すれば他のディストリビューションでもYarn clusterを使用できますが、Talendによって公式にテストされていないため動作が保証されることはありません。