MapReduceジョブでHadoop接続を設定する - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Talend MapReduceジョブを実行するには、事前にHadoopへの接続を設定して下さい。

手順

  1. Studioの Integration パースペクティブの[Repository] (リポジトリ)ツリービューで、作成したMapReduceジョブをダブルクリックします。ジョブがワークスペースに開きます。
  2. [Run] (実行)タブをクリックしてビューを開き、[Hadoop configuration] (Hadoopの設定)タブをクリックします。

    このビューでパラメーターを設定し、使用するHadoopクラスターへの接続を作成する必要があります。

    このビューの各パラメーターに関する詳しい説明は、Hadoop接続の手動セットアップを参照して下さい。

    この[Hadoop configuration] (Hadoopの設定)ビューで作成した接続は、ジョブごとに有効になります。そのため、別のジョブを実行する場合は、このビューでそのジョブに専用の接続を設定する必要があります。

    現時点で、MapReduceに最適化されたコンポーネントを使ってデザインを完成したジョブは、MapReduceジョブの作成について前述したように、実行する準備ができています。その他の場合は、ジョブを実行する前にデザインを完成させる必要があります。

タスクの結果

この図は、Hadoopとの接続を持つ完成したMapReduceジョブを示しています。このジョブは実行する準備ができています。

[Code] (コード)タブをクリックすると、生成されたMapReduceのコードが確認できるビューが開きます。

この図は、生成されたコードのうち、ジョブのrejectsデータフローの部分を示しています。このコードから、このジョブは設定情報をチェックし、InputFormat、OutputFormat、Mapper、Reducerなどの異なるクラスを生成することが読み取れます。

生成されたクラス、たとえばtDenormalize_1Reducer.classを選択して[F3]キーを押すと、このクラスのコードが次の図のように新しいタブに表示されます。

このビューから、ReducerがReduce計算をどのように実行するかが読み取れます。