デシジョンツリーモデルをトレーニング - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント
このセクションでは、デシジョンツリーモデルのトレーニングを行う方法について説明します。

手順

  1. パレットに[tDecisionTreeModel]コンポーネントを追加します。
  2. [Main] (メイン)を使って、[tModelEncouder][tDecisionTreeModel]に接続します。
  3. [tDecisionTreeModel]をダブルクリックして、[Component] (コンポーネント)ビューを選択します。
  4. [Storage] (ストレージ)の下にあるチェックボックスを選択して、HDFSストレージを選択します。
  5. 前に作成したスキーマを選択します。
  6. [Features Column] (機能カラム)で、MyFeaturesを選択します。
  7. [Label Column] (ラベルカラム)で、MyLabelsを選択します。
  8. [Model location] (モデルロケーション)の下にあるチェックボックスを選択して、HDFSファイルシステムを/user/puccini/machinelearning/decisiontrees/marketing/decisiontree.modelに保存します。
  9. 残りの設定をデフォルト値のままにしておきます。

    最終ジョブは次のように表示されるはずです。

  10. [Run] (実行)を選択して、[Spark configuration] (Spark設定)に移動します。
  11. [Use local mode] (ローカルモードを使用)チェックボックスを選択します。
    このジョブはHadoopクラスターで直接実行することもできます。これは本番環境で最も可能性が高いシナリオです。そのためには、[Use local mode] (ローカルモードを使用)チェックボックスを消去するなど、ジョブの実行方法を若干調整する必要があります。