手順
-
tMahoutClusteringをダブルクリックして[Component] (コンポーネント)ビューを開きます。
-
[Schema] (スキーマ)リストで[Built-In] (組み込み)を選択し、[Edit Schema] (スキーマを編集)の横にある[...]ボタンをクリックし、入力ファイル内のデータ構造を説明します。
-
スキーマダイアログボックスに8行を追加し、上記のキャプチャに示すように入力データを定義します。
コンポーネントには、clusterIDという1つの読み取り専用カラムがあります。
- [OK]をクリックします。
-
[File Configuration] (ファイル設定)エリアで以下の操作を行います。
-
[Input HDFS file] (入力HDFSファイル)の横にある[...]ボタンをクリックし、クラスター化する入力数値データを保持するHadoopシステム上のHDFSファイルを参照します。
-
クラスター化データのカラムを区切るために使うフィールド区切りを設定します。
-
[Cluster columns] (クラスターカラム)テーブルで、テーブルに行を追加し、各行をクリックして、入力スキーマからカラムを選択します。
-
-
[Clustering Configuration] (クラスタリング設定)エリアで以下の操作を行います。
-
[Clustering Type] (クラスタリングタイプ)リストから、数値データをクラスタリングするために使うアルゴリズム(この例では[Fuzzy K-means] (ファジーK-Means))を選択します。
-
[Distance Measure] (距離測定)リストから、クラスタリングに使うする距離測定を選択します。
-
[Number of clusters] (クラスター数)フィールドに3と入力します。
-
[Max iterations] (最大反復)と[Convergence delta] (収束デルタ)の値はそのままにしておきます。
-