クラスタリングプロセスを設定する - 7.2

Machine Learning

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

手順

  1. tMahoutClusteringをダブルクリックして[Component] (コンポーネント)ビューを開きます。
  2. [Schema] (スキーマ)リストで[Built-In] (組み込み)を選択し、[Edit Schema] (スキーマを編集)の横にある[...]ボタンをクリックし、入力ファイル内のデータ構造を説明します。
  3. スキーマダイアログボックスに8行を追加し、上記のキャプチャに示すように入力データを定義します。
    コンポーネントには、clusterIDという1つの読み取り専用カラムがあります。
  4. [OK]をクリックします。
  5. [File Configuration] (ファイル設定)エリアで以下の操作を行います。
    • [Input HDFS file] (入力HDFSファイル)の横にある[...]ボタンをクリックし、クラスター化する入力数値データを保持するHadoopシステム上のHDFSファイルを参照します。

    • クラスター化データのカラムを区切るために使うフィールド区切りを設定します。

    • [Cluster columns] (クラスターカラム)テーブルで、テーブルに行を追加し、各行をクリックして、入力スキーマからカラムを選択します。

  6. [Clustering Configuration] (クラスタリング設定)エリアで以下の操作を行います。
    • [Clustering Type] (クラスタリングタイプ)リストから、数値データをクラスタリングするために使うアルゴリズム(この例では[Fuzzy K-means] (ファジーK-Means))を選択します。

    • [Distance Measure] (距離測定)リストから、クラスタリングに使うする距離測定を選択します。

    • [Number of clusters] (クラスター数)フィールドに3と入力します。

    • [Max iterations] (最大反復)[Convergence delta] (収束デルタ)の値はそのままにしておきます。