データサイエンスの基礎を理解 - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント
このセクションでは、機械学習で使用される重要なコンセプトをいくつか紹介します。

以下のコンセプトは機械学習に重要で、データサイエンティストが分類モデルの評価に使う標準ツールの一部です。

  • 混同行列: 結果が知られているテストデータに対して、分類モデルパフォーマンスの視覚的な観察を簡単にできる専用テーブル(監視学習)
  • 真陰性 (TN): 予測が現在の結果と同等(正確な拒否)
  • 真陽性 (TP): 予測が現在の結果と同等(正確なヒット)
  • 偽陰性 (FN): 予測が失敗 (誤った拒否) (タイプIIエラー)
  • 偽陽性 (FP): 予測が失敗 (誤ったヒット) (タイプIエラー)
  • 精度: 全体で、分類子が正しい頻度。A = (TP+TN)/Total
  • 真陽性率(感度): TP/(TP+FN)
  • 真陰性(特異度): TN/(FP+TN)

以下は、どうやってレイアウトされるかを示す一般化された混同行列です。

これが一般的な混同行列の簡単で具体的な使用例です。猫と犬の一連の画像を分析して、どれが猫の画像で、どれがそうではない(この場合は犬)かを識別するようモデルをトレーニングしたことを前提とします。モデルが完璧である場合は、100%の精度が予測されます。モデルの結果が0%の精度である可能性もあります。しかし、最も可能性の高い結果は、混同行列が役立てる中間にあります。

以下は、仮定の結果です。

この仮説モデルは、15枚猫の画像を正確に予測し(TP)、10枚の犬(または猫ではない)の画像も正確に予測しました(TN)。ただし、このモデルは40匹の犬を猫と誤認し(FN)、35匹の猫を犬と誤認しました(FP)。

  • この分類子の精度: (15+10) / (15+35+40+10) = .25
  • この分類子の感度: 15/(15+35) = .3
  • この分類子の特異度: 10/(40+10) = .2

結論としては、このモデルは全体で25%の確率で正しいということになります(精度)。猫の画像である場合に、このモデルは猫を30%の確立で正確に予測します(感度)。猫の画像でない場合に、このモデルは猫でないことを20%の確立で正確に予測します(特異度)。