このプロパティはSpark Batchジョブフレームワークで実行されているtNaiveBayesModelを設定するために使います。
Spark Batch tNaiveBayesModelコンポーネントは、機械学習ファミリーに属しています。
このコンポーネントは、ビッグデータ対応のTalend Platform製品およびTalend Data Fabricで利用できます。
基本設定
[Define a storage configuration component] (ストレージ設定コンポーネントを定義) |
HDFSなどのターゲットファイルシステムへの接続の設定情報を提供するために使用する設定コンポーネントを選択します。 このチェックボックスをオフにすると、ターゲットファイルシステムはローカルシステムになります。 使用する接続設定は同じジョブ内にあることが必要です。たとえば、tHDFSConfigurationコンポーネントをジョブにドロップした場合は、このコンポーネントを選択して、所定のHDFSシステム内で結果を書き込むことができます。 |
Sparkバージョン |
使っているSparkのバージョンを選択します。 Spark V1.4以降の場合、設定するパラメーターは次のとおりです。
Spark 1.3については、このテーブルの以下の行で説明されているパラメーターを参照してください。 |
[Column type] (カラムタイプ) |
分類子モデルを計算するために、このテーブルを完成させて、各入力カラムの特徴タイプを定義します。
|
[Training percentage] (トレーニングの割合) |
分類子モデルのトレーニングに使う入力データのパーセンテージ(10進形式で表現)を入力します。残りのデータはモデルのテストに使われます。 |
[PMML model path] (PMMLモデルパス) |
使うファイルシステムで生成された分類子モデルを保管するディレクトリーを入力します。 参照用のボタンはSpark Localモードでは機能しません。お使いのディストリビューションでStudioがサポートしているその他のSpark Yarnモードを使用している場合は、同じジョブ内の設定コンポーネント(tHDFSConfigurationなど)で接続を適切に設定したことを確認する必要があります。使用されるファイルシステムに応じて設定コンポーネントを使用します。 単純ベイズ分類モデルで使われるPMML形式の詳細は、http://www.dmg.org/v4-2-1/NaiveBayes.htmlを参照してください。 |
[Parquet model name] (Parquetモデル名) |
分類子モデルに使う必要がある名前を入力します。 |
使用方法
使用ルール |
このコンポーネントは終了コンポーネントとして使用され、入力リンクを必要とします。 |
[Model evaluation] (モデル評価) |
設定する必要があるパラメーターは自由パラメーターであるため、値は以前の実験や経験的推測などによって提供される場合があります。すべてのデータセットに適用できる最適値はありません。 したがって、各クラスで最適な正確性(ACC)スコアと最適な精度、[Recall] (再現率)およびF1測定スコアが得られるまで、さまざまなパラメーター値のセットを使って生成する分類子モデルをトレーニングする必要があります。
|
[Scores] (スコア) |
これらのスコアは、Project SettingsダイアログボックスのLog4jビューに次のコードを追加した時にジョブを実行すると、[Run] (実行)ビューのコンソールに出力できます。
<!-- DataScience Logger --> <logger name= "org.talend.datascience.mllib" additivity= "false" > <level value= "INFO" /> <appender-ref ref= "CONSOLE" /> </logger> これらのスコアは、Log4j INFOレベルの他の情報と共に出力されます。無関係な情報が出力されないようにするには、たとえば、この種の情報のLog4jレベルをWARNに変更します。ただし、このDataScience LoggerコードをINFOにしておく必要があります。 サブスクリプションバージョンのStudioを使用している場合は、このコンポーネントのアクティビティは、log4j機能を使用して記録できます。この機能の詳細は、 Talend Studioユーザーガイドをご覧ください。 log4jロギングレベルの詳細は、Apacheのドキュメンテーション(http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html)をご覧ください。 |