TalendジョブがApache Sparkで機能する仕組み - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio
Talend Sparkジョブでは、Spark固有のコンポーネントを使用して、Sparkのフレームワークを使い、特定のSparkクラスターに加えて、RDD (Resilient Distributed Datasets)を処理します。

作成するSparkジョブにどのフレームワークを選択するかに応じて、このTalend Sparkジョブでは、コードの生成時にSparkストリーミングフレームワークまたはSparkフレームワークのどちらかを実装します。

Talend Sparkジョブは、以下のいずれのモードでも実行できます。

  • ローカル: Studioは、Studio内でジョブをローカルに実行するために、ランタイム時に自身をSpark環境内にバインドします。このモードでは、ローカルマシンの各プロセッサーがSparkワーカーとして使用されて計算を行います。この設定ビューに設定するパラメーターは最小限しか必要とされません。

    このローカルマシンは、ジョブが実際に実行されるマシンです。

  • [Standalone] (スタンドアロン): StudioはSpark対応のクラスターに接続して、このクラスターからジョブを実行します。

  • Yarnクライアント: StudioはSparkドライバーを実行してジョブの実行方法をプロセス制御し、特定のHadoopクラスターのYarnサービスにそのプロセス制御を送信して、そのYarnサービスのリソースマネージャーが適宜実行リソースを要求できるようにします。