分類モデルを評価し、生成する - 7.2

Natural Language Processing

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 自然言語処理
データガバナンス > サードパーティーシステム > 自然言語処理
データクオリティとプレパレーション > サードパーティーシステム > 自然言語処理
tNLPModelコンポーネントはCoNLL形式のトレーニングデータを読み込み、分類モデルを評価して生成します。

手順

  1. tNLPModelコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
    1. [Feature template] (機能テンプレート)テーブルの下にある[+]ボタンをクリックし、テーブルに行を追加します。
    2. [Features] (機能)カラムをクリックして、生成する機能を選択します。
    3. 各機能に相対位置を指定します。

      たとえば-2,-1,0,1,2の場合は、機能として現在のトークンと前後2つずつのコンテキストトークンを使用するという意味になります。

    4. [NLP Library] (NLPライブラリー)リストから、トレーニングテキストデータの前処理に使用したのと同じライブラリーを選択します。
  2. モデルを評価するには、[Run cross validation evaluation] (クロス検証評価の実行)チェックボックスをオンにします。
  3. [Save the model on file system] (モデルをファイルシステムに保存)チェックボックスと[Store model in a single file] (モデルを単一ファイル内に保存)チェックボックスをオンにすると、[Folder] (フォルダー)フィールドで指定したフォルダーにモデルがローカルに保存されます。
  4. オプション: ジョブ実行のログ出力レベルを変更して、[Run] (実行)ビュー内のモデルの改善ごとに、最適加重のF1スコアを出力します。
    1. [Run] (実行)ビューで[Advanced settings] (詳細設定)タブをクリックします。
    2. log4jLevelチェックボックスをオンにして、リストから[Info] (情報)を選択します。
  5. [F6]を押してジョブを実行します。

タスクの結果

[Info] (情報)log4jLevel値を設定すると、モデルの改善ごとに 最適加重のF1スコアが、[Run] (実行)ビューのコンソールに出力されます。

次のアイテムも[Run] (実行)ビューのコンソールに出力されます。

カテゴリー アイテム
各クラス クラス名。
True Positive: このクラスのエレメントとして正しく予測されたエレメントの数です。
Predicted True: このクラスのエレメントとして予測されたエレメントの数です。
Labeled True: このクラスに属するエレメントの数です。
[Precision] (適合率)スコア: 範囲は0から1までで、分類によって選択されたエレメントの特定のクラスに対する関連性の度合いを示します。
[Recall] (再現率)スコア: 範囲は0から1までで、関連するエレメントがいくつ選択されているかを示します。
F1スコア: [Precision] (適合率)スコアと[Recall] (再現率)スコアの調和平均です。
最適モデル グローバル加重F1スコア

指定したフォルダーにモデルファイルが保存されます。これで、tNLPPredictコンポーネントで生成されたモデルを使用して、ネームドエンティティを予測し、テキストデータに自動的にラベル付けできます。