Talend Sparkジョブの仕組み - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Talend Sparkジョブでは、Spark固有のコンポーネントを使用して、Sparkのフレームワークを使い、特定のSparkクラスターに加えて、RDD (Resilient Distributed Datasets)を処理します。

Talend Sparkジョブは、以下のいずれのモードでも実行できます。

  • [Local] (ローカル): StudioはランタイムにSpark環境を自らの中にビルドして、ジョブをStudio内でローカルに実行します。このモードでは、ローカルマシンの各プロセッサーがSparkワーカーとして使用されて計算を行います。この設定ビューに設定するパラメーターは最小限しか必要とされません。

    このローカルマシンは、ジョブが実際に実行されるマシンです。

  • [Standalone] (スタンドアロン): StudioはSpark対応のクラスターに接続して、このクラスターからジョブを実行します。

  • Yarnクライアント: StudioはSparkドライバーを実行してジョブの実行方法をオーケストレーションし、特定のHadoopクラスターのYarnサービスにそのオーケストレーションを送信して、そのYarnサービスのリソースマネージャーが適宜実行リソースを要求できるようにします。