サンプルデータを読み取ってキャッシュ - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

手順

  1. 最初のtFileInputInputコンポーネントをダブルクリックし、[Component] (コンポーネント)ビューを開きます。
  2. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックし、ポップアップスキーマダイアログボックスで、倍数型の2つのカラムlatitudelongitudeを追加してスキーマを定義します。
  3. [OK]をクリックしてこれらの変更を確認し、ポップアップ表示されるダイアログボックスで求められるプロパゲーションを承認します。
  4. [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにし、使うtHDFSConfigurationコンポーネントを選択します。
    tFileInputDelimitedはこの設定を使い、トレーニングセットとして使われるサンプルデータにアクセスします。
  5. [Folder/File] (フォルダー/ファイル)フィールドで、トレーニングセットが保管されているディレクトリーを入力します。
  6. tReplicateコンポーネントをダブルクリックし、[Component] (コンポーネント)ビューを開きます。
  7. [Cache replicated RDD] (複製されたRDDをキャッシュする)チェックボックスをオンにし、[Storage level] (ストレージレベル)ドロップダウンリストから[Memory only] (メモリのみ)を選択します。このようにして、このサンプルデータは複製され、テストセットとして使うためにメモリに保存されます。