メイン コンテンツをスキップする 補完的コンテンツへスキップ

トレーニングセットを読み取る

手順

  1. tFileInputDelimitedをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
  2. [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにし、使うtHDFSConfigurationコンポーネントを選択します。
    tFileInputDelimitedはこの設定を使い、使うトレーニングセットにアクセスします。
  3. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックし、スキーマエディターを開きます。
  4. [+]ボタンを5回クリックして5つの行を追加し、[Column] (カラム)カラムで名前をそれぞれlabelsms_contentsnum_currencynum_numericnum_exclamationに変更します。
    labelカラムとsms_contentsカラムは、sms_contentsカラム内のSMSテキストメッセージで構成された生データを保持し、メッセージがスパムかどうかをlabelカラムでラベル表示します。
    他のカラムは、このシナリオで前に説明したように、生データセットに追加された機能を保持するために使われます。これらの3つの機能は、各SMSメッセージにある通貨記号の数、数値の数、感嘆符の数です。
  5. [Type] (タイプ)カラムで、カラムnum_currencynum_numericnum_exclamation[Integer] (整数)を選択します。
  6. [OK]をクリックして、これらの変更を検証します。
  7. [Folder/File] (フォルダー/ファイル)フィールドに、使うトレーニングセットが保管されているディレクトリーを入力します。
  8. [Field separator] (フィールド区切り)フィールドに\tを入力します。これはデータセットが使う区切りで、このシナリオ用にダウンロードできます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。