Apache Spark BatchのtNaiveBayesModelプロパティ - 7.3

Machine Learning

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント
Last publication date
2024-02-22

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtNaiveBayesModelを設定するために使われます。

Spark BatchtNaiveBayesModelコンポーネントは、機械学習ファミリーに属しています。

このコンポーネントは、ビッグデータ対応のTalend Platform製品およびTalend Data Fabricで利用できます。

基本設定

[Define a storage configuration component] (ストレージ設定コンポーネントを定義)

HDFSなどのターゲットファイルシステムへの接続の設定情報を提供するために使用する設定コンポーネントを選択します。

このチェックボックスをオフにすると、ターゲットファイルシステムはローカルシステムになります。

使用する接続設定は同じジョブ内にあることが必要です。たとえば、tHDFSConfigurationコンポーネントをジョブにドロップした場合は、このコンポーネントを選択して、所定のHDFSシステム内で結果を書き込むことができます。

[Model location] (モデルのロケーション)

  • [Save the model on file system] (モデルをファイルシステムに保存):

    特定のファイルシステムにモデルを保管する場合は、このチェックボックスをオンにします。オフの場合、モデルはメモリに保管されます。参照用のボタンはSpark [Local] (ローカル)モードでは機能しません。Spark YarnまたはSpark [Standalone] (スタンドアロン)モードを使用している場合は、同じジョブ内のtHDFSConfigurationなどの設定コンポーネントで接続を適切に設定したことを確認する必要があります。

  • [Path] (パス): このフィールドは[Save the model on file system] (モデルをファイルシステムに保存)が選択されている場合に利用できます。目的のファイルシステムへのパスを入力します。
[Parameters] (パラメーター)
  • [Label column] (ラベルカラム):

    分類ラベルの提供に使う入力カラムを選択します。このカラムのレコードは、分類されるエレメントのクラス名(分類の対象)として使われます。

  • [Feature column] (特徴カラム):

    機能を提供するために使う入力カラムを選択します。多くの場合、このカラムはtModelEncoderによって実行された機能エンジニアリング計算の出力です。

使用方法

使用ルール

このコンポーネントは、終了コンポーネントとして使用され、入力リンクを必要とします。

[Model evaluation] (モデル評価)

設定する必要があるパラメーターは自由パラメーターであるため、値は以前の実験や経験的推測などによって提供される場合があります。すべてのデータセットに適用できる最適値はありません。

したがって、各クラスで最適な正確性(ACC)スコアと最適な精度、[Recall] (再現率)およびF1測定スコアが得られるまで、さまざまなパラメーター値のセットを使って生成する分類子モデルをトレーニングする必要があります。

  • 精度スコアの範囲は0から1で、分類の精度を示します。精度スコアが1に近いほど、対応する分類が正確になります。

  • [Precision] (適合率)スコアも範囲は0から1までで、分類によって選択されたエレメントの特定のクラスに対する関連性の度合いを示します。

  • [Recall] (再現率)スコアも範囲は0から1までで、関連するエレメントがいくつ選択されているかを示します。

  • F1測定スコアは、[Precision] (適合率)スコアと[Recall] (再現率)スコアの調和平均です。

[Scores] (スコア)

これらのスコアは、Project SettingsダイアログボックスのLog4jビューに次のコードを追加した時にジョブを実行すると、[Run] (実行)ビューのコンソールに出力できます。
<!-- DataScience Logger -->
<logger name= "org.talend.datascience.mllib" additivity= "false" >
<level value= "INFO" />
<appender-ref ref= "CONSOLE" />
</logger>

これらのスコアは、Log4j INFOレベルの他の情報と共に出力されます。無関係な情報が出力されないようにするには、たとえば、この種の情報のLog4jレベルをWARNに変更します。ただし、このDataScience LoggerコードをINFOにしておく必要があります。

サブスクリプションバージョンのStudioを使用している場合は、このコンポーネントのアクティビティは、log4j機能を使用して記録できます。この機能の詳細は、Talend Studioユーザーガイドをご覧ください。

log4jロギングレベルの詳細は、Apacheのドキュメンテーション(http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html)をご覧ください。