テストセットをジョブにロードする - 7.2

Machine Learning

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

手順

  1. tFileInputDelimitedをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
  2. [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにし、使うtHDFSConfigurationコンポーネントを選択します。
    tFileInputDelimitedはこの設定を使い、使うトレーニングセットにアクセスします。
  3. [Edit schema] (スキーマを編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。
  4. [+]ボタンを5回クリックして5つの行を追加し、[Column] (カラム)カラムで名前をそれぞれreallabelsms_contentsnum_currencynum_numericnum_exclamationに変更します。
    reallabelカラムとsms_contentsカラムは、sms_contentsカラム内のSMSテキストメッセージで構成された生データを保持し、メッセージがスパムかどうかをreallabelカラムでラベル表示します。
    他のカラムは、このシナリオで前に説明したように、未加工データセットに追加された機能を保持するために使われます。これらのカラムには、各SMSメッセージにある通貨記号の数、数値の数、感嘆符の数が含まれています。
  5. [Type] (タイプ)カラムで、カラムnum_currencynum_numericnum_exclamation[Integer] (整数)を選択します。
  6. [OK]をクリックして、これらの変更を検証します。
  7. [Folder/File] (フォルダー/ファイル)フィールドに、使うテストセットが保管されているディレクトリーを入力します。
  8. [Field separator] (フィールド区切り)フィールドに\tを入力します。これはデータセットが使う区切りで、このシナリオ用にダウンロードできます。