K-Meansの機能を準備する - 7.2

Machine Learning

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

手順

  1. tModelEncoderコンポーネントをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
  2. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックし、ポップアップスキーマダイアログボックスのtModelEncoder側で、Vectorタイプのmapという名前のカラムを1つ追加して、スキーマを定義します。
  3. [OK]をクリックしてこれらの変更を確認し、ポップアップ表示されるダイアログボックスで求められるプロパゲーションを承認します。
  4. [Transformations] (変換)テーブルで[+]ボタンをクリックして1行を追加し、次の手順を実行します。
    1. [Output column] (出力カラム)カラムで、機能を持つカラムを選択します。このシナリオではmapです。
    2. [Transformation] (変換)カラムで、変換に使うアルゴリズムを選択します。[Vector assembler] (Vectorアセンブラー)です。
    3. [Parameters] (パラメーター)カラムに、Vectorアセンブラーアルゴリズムで使うためにカスタマイズするパラメーターを入力します。このシナリオでは、inputCols=latitude,longitudeと入力します。
    この変換では、tModelEncoderはすべての機能Vectorを1つの機能カラムに結合します。
  5. tKMeansModelをダブルクリックして[Component] (コンポーネント)ビューを開きます。
  6. [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにし、使うtHDFSConfigurationコンポーネントを選択します。
  7. [Vector to process] (処理するVector)リストから、分析する機能Vectorを提供するカラムを選択します。このシナリオでは[map] (マップ)を選択します。これはすべての機能を組み合わせます。
  8. [Save the model on file system] (モデルをファイルシステムに保存)チェックボックスをオンにし、表示された[HDFS folder] (HDFSフォルダー)フィールドに、生成されたモデルの保管に使うディレクトリーを入力します。
  9. [Number of cluster] (クラスター数)フィールドに、tKMeansで構築するデシジョンツリーの数を入力します。現在のジョブを実行してクラスタリングモデルを作成するには、さまざまな数を数回試す必要があります。各実行で作成されたすべてのモデルの評価結果を比較した後、使う必要がある数を判断できます。たとえば、6を入れます。
    評価コードは自分で書く必要があります。
  10. 初期化関数から[Random] (ランダム)を選択します。一般に、このモードは単純なデータセットに使います。
  11. その他のパラメーターはそのままにしておきます。