デシジョンツリーモデルをトレーニング - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント
Last publication date
2024-02-28

このセクションでは、デシジョンツリーモデルのトレーニングを行う方法について説明します。

手順

  1. ワークスペースにtDecisionTreeModelコンポーネントを追加します。
  2. [Main] (メイン)行を使って、tModelEncodertDecisionTreeModelに接続します。
  3. tDecisionTreeModelをダブルクリックして[Basic settings] (基本設定)を開きます。
  4. [Storage] (ストレージ)[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにし、HDFSストレージを選択します。
  5. 前に作成したスキーマを選択します。
  6. [Features Column] (機能カラム)で、MyFeaturesを選択します。
  7. [Label Column] (ラベルカラム)で、MyLabelsを選択します。
  8. [Model location] (モデルのロケーション)[Save the model on file system (only for Spark 1.4 or higher)] (モデルをファイルシステムに保存(Spark 1.4以降のみ))チェックボックスを選択し、HDFSファイルシステムにパスを入力します。
    この例では、/user/puccini/machinelearning/decisiontrees/marketing/decisiontree.modelです。
  9. 残りの設定をデフォルト値のままにしておきます。

    ジョブ設定は次のようになります。

  10. [Run] (実行)を選択して、[Spark configuration] (Spark設定)に移動します。
  11. [Use local mode] (ローカルモードを使用)チェックボックスを選択します。
    このジョブはHadoopクラスターで直接実行することもできます。これは本番環境で最も可能性が高いシナリオです。そのためには、[Use local mode] (ローカルモードを使用)チェックボックスを消去するなど、ジョブの実行方法を若干調整する必要があります。