Talend Data MapperでSparkを使用
Apache Spark (別称「Spark」)は、Talend Data Mapperで大型の入力ファイルを扱う場合に便利です。Sparkでは変換作業の前にファイル全体をメモリにロードせずにファイルをストリームしてマッピングを処理するため、そのスピードを十分に活用できます。
大型の入力ファイルのインポート時にSparkとTalend Data Mapperの機能を一緒にテストする場合は、いかに簡単にそのテストを実行できるかこのシナリオでわかります。
Apache Sparkの詳細は、http://spark.apache.org/ (英語のみ)で公式ドキュメンテーションをご覧ください。Talend Data Mapperの詳細は、Talend Data Mapperユーザーガイドをご覧ください。
前提条件
Talend Studioには、ジョブを実行できるローカルのSpark環境が含まれています。次のシナリオを正しく実行できるよう、設定可能な環境の例を示します。
- Hadoop Distributed File System (HDFS)とSparkサービスが有効になっており、ClouderaがクラスターとしてインストールされているGoogle Cloud PlatformのCentOSサーバーの3つのインスタンス
- Windows 10クライアント