TalendジョブがApache Sparkで機能する仕組み - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio
Talend Sparkジョブでは、Spark固有のコンポーネントを使用して、Sparkのフレームワークを使い、特定のSparkクラスターに加えて、RDD (Resilient Distributed Datasets)を処理します。

作成するSparkジョブにどのフレームワークを選択するかに応じて、このTalend Sparkジョブでは、コードの生成時にSparkストリーミングフレームワークまたはSparkフレームワークのどちらかを実装します。

Talend Sparkジョブは、以下のいずれのモードでも実行できます。

  • [Local] (ローカル): StudioはランタイムにSpark環境を自らの中にビルドして、ジョブをStudio内でローカルに実行します。このモードでは、ローカルマシンの各プロセッサーがSparkワーカーとして使用されて計算を行います。この設定ビューに設定するパラメーターは最小限しか必要とされません。

    このローカルマシンは、ジョブが実際に実行されるマシンです。

  • [Standalone] (スタンドアロン): StudioはSpark対応のクラスターに接続して、このクラスターからジョブを実行します。

  • Yarnクライアント: StudioはSparkドライバーを実行してジョブの実行方法をオーケストレーションし、特定のHadoopクラスターのYarnサービスにそのオーケストレーションを送信して、そのYarnサービスのリソースマネージャーが適宜実行リソースを要求できるようにします。