データフローを配列する - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

手順

  1. Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから、たとえばrf_model_creationという名前の空のSpark Batchジョブを作成します。
    Spark Batchジョブの作成方法の詳細は、Studioの入門ガイドを参照してください。
  2. ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtHDFSConfigurationtFileInputDelimitedtRandomForestModelコンポーネント、4つのtModelEncoderコンポーネントです。
    4つのtModelEncoderコンポーネントに異なる名前を付けることをお勧めします。そうすれば、各コンポーネントを使っ行うタスクを簡単に識別できます。このシナリオではそれぞれ、Tokenizetftf_idf features_assemblerとラベル付けされています。
  3. 前に画像で示したように、tHDFSConfiguration以外のコンポーネントを[Row] (行) > [Main] (メイン)リンクを使って接続します。