ジョブを設定してHadoopクラスター上で実行 - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント
このセクションでは、ジョブを設定して、Hadoopクラスター上で直接実行する方法について説明します。

手順

  1. [Run] (実行)タブで、[Spark configuration] (Spark設定)をクリックします。
  2. 次の[Advanced properties] (詳細プロパティ)を追加します。
    この値はHadoopのディストリビューションとバージョン固有のものです。このチュートリアルでは、2.4.0.0-169であるHortonworks 2.4 V3を使います。Hortonworks 2.4 V3を使わない場合は、このパラメーターのエントリーが異なります。
    注: クラスター上でコードを実行する時に、2つのシステム間の自由なアクセスがあることを確認することが重要です。この例では、HortonworksクラスターがTalend Studioのインスタンスと通信できることを確認する必要があります。クラスター上で実行されていても、SparkがTalendに同梱されているSparkドライバーを参照する必要があるため、必須です。さらに、Sparkジョブを本番環境にデプロイする場合は、Talendジョブサーバー(エッジノード)から実行されます。これとクラスターの間に自由な通信があることを確認する必要もあります。

    各サービスに必要なポートの詳細は、Spark Securityドキュメンテーションをご覧ください。

  3. [Advanced settings] (詳細設定)タブをクリックして、Hadoopのバージョンを示す新しいJVM引数を追加します。前のステップで、値として追加した文字列です。
  4. [Basic Run] (基本実行)タブをクリックした後に、[Run] (実行)をクリックします。
    完了したら、成功を示すメッセージが表示されます。
  5. HDFSディレクトリー(この場合はAmbari)に移動して、モデルが作成済みで、HDFSに永続化されていることを検証します。