手順
-
tRandomForestModelをダブルクリックして[Component] (コンポーネント)ビューを開きます。
- [Label column] (ラベルカラム)リストから、分類に使われるクラスを提供するカラムを選択します。このシナリオではlabelです。このカラムには2つのクラス名が含まれています。ジャンクメッセージ用のspamと、通常のメッセージ用のhamです。
- [Features column] (特徴カラム)リストから、分析する特徴ベクトルを提供するカラムを選択します。このシナリオではfeatures_vectを選択します。これはすべての特徴を組み合わせます。
- [Save the model on file system] (モデルをファイルシステムに保存)チェックボックスをオンにし、表示された[HDFS folder] (HDFSフォルダー)フィールドに、生成されたモデルの保管に使うディレクトリーを入力します。
-
[Number of trees in the forest] (フォレスト内のツリーの数)フィールドに、tRandomForestModelで構築するデシジョンツリーの数を入力します。現在のジョブを実行して分類モデルを作成するには、さまざまな数を数回試す必要があります。各実行で作成されたすべてのモデルの評価結果を比較した後、使う必要がある数を判断できます。このシナリオでは20入力します。
評価ジョブは、次のいずれかのセクションに表示されます。
- 他のパラメーターはそのままにしておきます。