MapReduceジョブでHadoop接続を設定する - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このタスクについて

Talend MapReduceジョブを実行するには、事前にHadoopへの接続を設定する必要があります。そのためには、次の手順に従います。

手順

  1. StudioのIntegrationパースペクティブの[Repository] (リポジトリ)ツリービューで、作成したMapReduceジョブをダブルクリックします。ジョブがワークスペースに開きます。
  2. [Run] (実行)タブをクリックしてビューを開き、[Hadoop configuration] (Hadoopの設定)タブをクリックします。
    このビューでパラメーターを設定し、使用するHadoopクラスターへの接続を作成する必要があります。このビューの各パラメーターに関する詳しい説明は、『Talend Open Studio for Big Data Getting Started Guide』を参照して下さい。
    この[Hadoop configuration] (Hadoopの設定)ビューで作成した接続は、ジョブごとに有効になります。そのため、別のジョブを実行する場合は、このビューでそのジョブに専用の接続を設定する必要があります。
    現時点で、MapReduceに最適化されたコンポーネントを使ってデザインを完成したジョブは、MapReduceジョブの作成について前述したように、実行する準備ができています。その他の場合は、ジョブを実行する前にデザインを完成させる必要があります。

タスクの結果

この図は、Hadoopとの接続を持つ完成したMapReduceジョブを示しています。このジョブは実行する準備ができています。

[Code] (コード)タブをクリックすると、生成されたMapReduceのコードが確認できるビューが開きます。

この図は、生成されたコードのうち、ジョブのrejectsデータフローの部分を示しています。このコードから、このジョブは設定情報をチェックし、InputFormat、OutputFormat、Mapper、Reducerなどの異なるクラスを生成することが読み取れます。

生成されたクラス、たとえばtDenormalize_1Reducer.classを選択してF3キーを押すと、このクラスのコードが次の図のように新しいタブに表示されます。

このビューから、ReducerがReduce計算をどのように実行するかが読み取れます。