手順
-
Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから、たとえばrf_model_creationという名前の空のSpark Batchジョブを作成します。
Spark Batchジョブの作成方法の詳細は、Studioの入門ガイドをご覧ください。
-
ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtHDFSConfiguration、tFileInputDelimited、tRandomForestModelコンポーネント、4つのtModelEncoderコンポーネントです。
4つのtModelEncoderコンポーネントに異なる名前を付けることをお勧めします。そうすれば、各コンポーネントを使っ行うタスクを簡単に識別できます。このシナリオではそれぞれ、Tokenize、tf、tf_idf 、features_assemblerとラベル付けされています。
- 前に画像で示したように、tHDFSConfiguration以外のコンポーネントを[Row] (行) > [Main] (メイン)リンクを使って接続します。