ジョブを設定してHadoopクラスター上で実行 - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント
Last publication date
2024-02-28

このセクションでは、ジョブを設定して、Hadoopクラスター上で直接実行する方法について説明します。

手順

  1. [Run] (実行)タブで、[Spark configuration] (Spark設定)をクリックします。
  2. 次の[Advanced properties] (詳細プロパティ)を追加します。
    この値はHadoopのディストリビューションとバージョン固有のものです。このチュートリアルでは、2.4.0.0-169であるHortonworks 2.4 V3を使います。Hortonworks 2.4 V3を使わない場合は、このパラメーターのエントリーが異なります。
    注: クラスター上でコードを実行する時に、2つのシステム間の自由なアクセスがあることを確認することが重要です。この例では、HortonworksクラスターがTalend Studioのインスタンスと通信できることを確認します。クラスター上で実行されていても、SparkがTalendに同梱されているSparkドライバーを参照する必要があるため、必須です。さらに、Sparkジョブを本番環境にデプロイする場合は、Talendジョブサーバー(エッジノード)から実行されます。これとクラスターの間に自由な通信があることを確認する必要もあります。

    各サービスに必要なポートの詳細は、Spark Securityドキュメンテーションをご覧ください。

  3. [Advanced settings] (詳細設定)タブを選択し、Hadoopのバージョンを示す新しいJVM引数を追加します。
    前のステップで、値として追加した文字列です。
  4. [Basic Run] (基本実行)タブを選択した後に、[Run] (実行)をクリックします。
    完了したら、成功を示すメッセージが表示されます。
  5. HDFSディレクトリー(この例ではAmbari)に移動し、モデルが作成済みでありHDFSに永続化されていることを検証します。