SparkまたはYARNでジョブを実行
このチュートリアルでは、SparkまたはYARNで実行されるビッグデータバッチジョブを作成し、HDFSからデータを読み取ります。
Talend Studioプロジェクトを作成
プロジェクトの作成は、Talend Studioを使用するための最初のステップです。プロジェクトによって仕事をよりよく整理できるようになります。
手順
タスクの結果
SparkまたはYARNを使うビッグデータバッチジョブを作成
Talend Studioでは、ビッグデータ処理のためにSparkやMapReduceでBatchジョブやStreamingジョブを作成できます。
始める前に
手順
タスクの結果
Sparkでジョブを実行
このチュートリアルでは、SparkでTalend Studioジョブを実行する方法を学習します。
Sparkで実行するHDFS接続を設定
tHDFSConfigurationコンポーネントを使えば、HDFSファイルシステムをSparkに接続させることができます。
始める前に
- このチュートリアルではHadoopクラスターを活用します。Hadoopクラスターが利用可能であることが必要です。
- また、HDFSメタデータが設定されていることも必要です(Hadoop クラスターメタデータ定義の作成とHadoop クラスターメタデータ定義のインポートをご覧ください)。
手順
-
[Repository] (リポジトリー)で を展開した後に、目的のHadoopクラスターメタデータを展開します。
- [OK]をクリックします。
タスクの結果
次のタスク
SparkでHDFS接続からデータを読み取る
事前定義済みHDFSメタデータを使えば、SparkのHDFSファイルシステムからデータを読み取ることができます。
始める前に
- このチュートリアルではHadoopクラスターを活用します。Hadoopクラスターが利用可能であることが必要です。
- また、HDFSメタデータが設定されていることも必要です(Hadoop クラスターメタデータ定義の作成とHadoop クラスターメタデータ定義のインポートをご覧ください)。
- SparkでHDFS接続を設定していること(Sparkで実行するHDFS接続を設定をご覧ください)。
手順
タスクの結果
YARNでジョブを実行
このチュートリアルでは、YARNでTalend Studioジョブを実行する方法を学習します。
YARNで実行するHDFS接続を設定
tHDFSConfigurationコンポーネントを使えば、HDFSファイルシステムをYARNに接続させることができます。
始める前に
- このチュートリアルではHadoopクラスターを活用します。Hadoopクラスターが利用可能であることが必要です。
- また、HDFSメタデータが設定されていることも必要です(Hadoop クラスターメタデータ定義の作成とHadoop クラスターメタデータ定義のインポートをご覧ください)。
手順
タスクの結果
次のタスク
YARNでHDFS接続からデータを読み取る
事前定義済みHDFSメタデータを使えば、YARNのHDFSファイルシステムからデータを読み取ることができます。
始める前に
- このチュートリアルではHadoopクラスターを活用します。Hadoopクラスターが利用可能であることが必要です。
- また、HDFSメタデータが設定されていることも必要です(Hadoop クラスターメタデータ定義の作成とHadoop クラスターメタデータ定義のインポートをご覧ください)。