Talend Sparkジョブの仕組み - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Talend Sparkジョブでは、Spark固有のコンポーネントを使用して、Sparkのフレームワークを使い、特定のSparkクラスターに加えて、RDD (Resilient Distributed Datasets)を処理します。

Talend Sparkジョブは、以下のいずれのモードでも実行できます。

  • ローカル: Studioは、Studio内でジョブをローカルに実行するために、ランタイム時に自身をSpark環境内にバインドします。 このモードでは、ローカルマシンの各プロセッサーがSparkワーカーとして使用されて計算を行います。 この設定ビューに設定するパラメーターは最小限しか必要とされません。

    このローカルマシンは、ジョブが実際に実行されるマシンです。

  • [Standalone] (スタンドアロン): StudioはSpark対応のクラスターに接続して、このクラスターからジョブを実行します。

  • Yarnクライアント: StudioはSparkドライバーを実行してジョブの実行方法をオーケストレーションし、特定のHadoopクラスターのYarnサービスにそのオーケストレーションを送信して、そのYarnサービスのリソースマネージャーが適宜実行リソースを要求できるようにします。