メイン コンテンツをスキップする 補完的コンテンツへスキップ

クラスタリングプロセスを設定する

手順

  1. tMahoutClusteringをダブルクリックして[Component] (コンポーネント)ビューを開きます。
  2. [Schema] (スキーマ)リストで[Built-In] (組み込み)を選択し、[Edit Schema] (スキーマを編集)の横にある[...]ボタンをクリックし、入力ファイル内のデータ構造を説明します。
  3. スキーマダイアログボックスに8行を追加し、上記のキャプチャーに示すように入力データを定義します。
    コンポーネントには、clusterIDという1つの読み取り専用カラムがあります。
  4. [OK]をクリックします。
  5. [File Configuration] (ファイル設定)エリアで以下の操作を行います。
    • [Input HDFS file] (入力HDFSファイル)の横にある[...]ボタンをクリックし、クラスター化する入力数値データを保持するHadoopシステム上のHDFSファイルを参照します。

    • クラスター化データのカラムを区切るために使うフィールド区切りを設定します。

    • [Cluster columns] (クラスターカラム)テーブルで、テーブルに行を追加し、各行をクリックして、入力スキーマからカラムを選択します。

  6. [Clustering Configuration] (クラスタリング設定)エリアで以下の操作を行います。
    • [Clustering Type] (クラスタリングタイプ)リストから、数値データをクラスタリングするために使うアルゴリズム(この例では[Fuzzy K-means] (ファジーK-Means))を選択します。

    • [Distance Measure] (距離測定)リストから、クラスタリングに使うする距離測定を選択します。

    • [Number of clusters] (クラスター数)フィールドに3と入力します。

    • [Max iterations] (最大反復)[Convergence delta] (収束デルタ)の値はそのままにしておきます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。