TalendジョブがApache Sparkで動作するしくみ - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
対象製品...

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Talend Sparkジョブでは、Spark固有のコンポーネントを使用して、Sparkのフレームワークを使い、特定のSparkクラスターに加えて、RDD (Resilient Distributed Datasets)を処理します。

対象製品:

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

作成するSparkジョブにどのフレームワークを選択するかに応じて、このTalend Sparkジョブでは、コードの生成時にSpark StreamingフレームワークまたはSparkフレームワークのどちらかを実装します。

Talend Sparkジョブは、以下のいずれのモードでも実行できます:

  • [Local] (ローカル): Talend Studioはランタイム時にSpark環境自体をビルドし、Studio内でジョブをローカルに実行します。このモードでは、ローカルマシンの各プロセッサーがSparkワーカーとして使用されて計算を行います。この設定ビューに設定するパラメーターは最小限しか必要とされません。

    このローカルマシンは、ジョブが実際に実行されるマシンです。

  • [Standalone] (スタンドアロン): Talend StudioはSpark対応のクラスターに接続し、このクラスターからジョブを実行します。