ランダムフォレストを使ってモデルをトレーニングする - 7.2

Machine Learning

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

手順

  1. tRandomForestModelをダブルクリックして[Component] (コンポーネント)ビューを開きます。
  2. [Label column] (ラベルカラム)リストから、分類に使われるクラスを提供するカラムを選択します。このシナリオではlabelです。このカラムには2つのクラス名が含まれています。ジャンクメッセージ用のspamと、通常のメッセージ用のhamです。
  3. [Features column] (特徴カラム)リストから、分析する特徴ベクトルを提供するカラムを選択します。このシナリオではfeatures_vectを選択します。これはすべての特徴を組み合わせます。
  4. [Save the model on file system] (モデルをファイルシステムに保存)チェックボックスをオンにし、表示された[HDFS folder] (HDFSフォルダー)フィールドに、生成されたモデルの保管に使うディレクトリーを入力します。
  5. [Number of trees in the forest] (フォレスト内のツリーの数)フィールドに、tRandomForestModelで構築するデシジョンツリーの数を入力します。現在のジョブを実行して分類モデルを作成するには、さまざまな数を数回試す必要があります。各実行で作成されたすべてのモデルの評価結果を比較した後、使う必要がある数を判断できます。このシナリオでは20入力します。
    評価ジョブは、次のいずれかのセクションに表示されます。
  6. 他のパラメーターはそのままにしておきます。