手順
-
tFileInputDelimitedをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
-
[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにし、使うtHDFSConfigurationコンポーネントを選択します。
tFileInputDelimitedはこの設定を使い、使うトレーニングセットにアクセスします。
- [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックし、スキーマエディターを開きます。
-
[+]ボタンを5回クリックして5つの行を追加し、[Column] (カラム)カラムで名前をそれぞれlabel、sms_contents、num_currency、num_numeric、num_exclamationに変更します。
labelカラムとsms_contentsカラムは、sms_contentsカラム内のSMSテキストメッセージで構成された生データを保持し、メッセージがスパムかどうかをlabelカラムでラベル表示します。他のカラムは、このシナリオで前に説明したように、生データセットに追加された機能を保持するために使われます。これらの3つの機能は、各SMSメッセージにある通貨記号の数、数値の数、感嘆符の数です。
- [Type] (タイプ)カラムで、カラムnum_currency、num_numeric、num_exclamationに[Integer] (整数)を選択します。
- [OK]をクリックして、これらの変更を検証します。
- [Folder/File] (フォルダー/ファイル)フィールドに、使うトレーニングセットが保管されているディレクトリーを入力します。
- [Field separator] (フィールド区切り)フィールドに\tを入力します。これはデータセットが使う区切りで、このシナリオ用にダウンロードできます。