このセクションでは、ジョブを設定して、Hadoopクラスター上で直接実行する方法について説明します。
手順
- [Run] (実行)タブで、[Spark configuration] (Spark設定)をクリックします。
-
次の[Advanced properties] (詳細プロパティ)を追加します。
この値はHadoopのディストリビューションとバージョン固有のものです。このチュートリアルでは、2.4.0.0-169であるHortonworks 2.4 V3を使います。Hortonworks 2.4 V3を使わない場合は、このパラメーターのエントリーが異なります。注: クラスター上でコードを実行する時に、2つのシステム間の自由なアクセスがあることを確認することが重要です。この例では、HortonworksクラスターがTalend Studioのインスタンスと通信できることを確認する必要があります。クラスター上で実行されていても、SparkがTalendに同梱されているSparkドライバーを参照する必要があるため、必須です。さらに、Sparkジョブを本番環境にデプロイする場合は、Talendジョブサーバー(エッジノード)から実行されます。これとクラスターの間に自由な通信があることを確認する必要もあります。
各サービスに必要なポートの詳細は、Spark Securityドキュメンテーションをご覧ください。
-
[Advanced settings] (詳細設定)タブをクリックして、Hadoopのバージョンを示す新しいJVM引数を追加します。前のステップで、値として追加した文字列です。
-
[Basic Run] (基本実行)タブをクリックした後に、[Run] (実行)をクリックします。
完了したら、成功を示すメッセージが表示されます。
-
HDFSディレクトリー(この場合はAmbari)に移動して、モデルが作成済みで、HDFSに永続化されていることを検証します。