手順
- tFileInputDelimitedの後にtModelEncoderコンポーネントを追加します。
-
[Main] (メイン)行を使って、tFileInputDelimitedをtModelEncoderに接続します。
- tModelEncoderをダブルクリックして、[Component] (コンポーネント)ビューを選択します。
- [Schema] (スキーマ)の右にある[Sync columns] (カラムを同期)をクリックします。
- [Edit schema] (スキーマを編集)の右にある[...]ボタンをクリックします。
-
VectorというタイプのMyFeaturesとDoubleというタイプのMyLabelsという2つの新しいカラムを出力に追加します。
- [OK]をクリックします。
- [Component] (コンポーネント)ビューの[Basic settings] (基本設定)タブでをクリックし、新しい変換を追加します。
- [Transformation] (変換)の下で、RFormula (Spark 1.5+)を選択します。
-
次のコードを[Parameters] (パラメーター)フィールドに追加します。
featuresCol=MyFeatures;labelCol=MyLabels;formula=conversion ~ age + jobtype + maritalstatus + educationlevel + indefault + hasmortgage + haspersonalloan + numcampaigncalls + priorcampaignoutcome
MyFeatures
とMyLabels
という、スキーマに追加される2つのカラムがここで参照されています。この式は、統計計算や高度なグラフィックスに使われるプログラミング言語Rで使用される標準構文です。詳細は、The R Projectをご覧ください。データのサンプリングには、機能が9つ、ターゲットが1つありました。上のRの式の場合、予測したいターゲットはconversion (変換)で、チルダの左にあります。チルダの右にあるカラムはすべて特徴です。残る2つのコンポーネントである
featuresCol
とlabelCol
は、タプルとフィーチャーラベルのプレースホルダーです。