Comprendre la base de la data science - Cloud - 8.0

Apprentissage automatique (Machine learning)

Version
Cloud
8.0
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
Cette section présente des concepts importants utilisés dans l'apprentissage automatique.

Les concepts suivants jouent un rôle crucial dans l'apprentissage automatique et font partie des outils standards utilisés par les data scientists pour évaluer les modèles de classification.

  • Matrice de confusion : table spécialisée simplifiant la possibilité d'observer virtuellement les performances du modèle de classification par rapport aux données de test lorsque les résultats sont connus (apprentissage supervisé)
  • True Negative (TN) (Vrai négatif, VN) : équivalence de la prédiction par rapport au résultat réel ; rejet correct
  • True Negative (TN) (Vrai négatif, VN) : équivalence de la prédiction par rapport au résultat réel ; réussite correcte
  • False Negative (FN) (Faux négatif, FN) : erreur de prédiction ; rejet en erreur (erreur de type II)
  • False Positive (FP) (Faux positif, FP) : erreur de prédiction ; réussite en erreur (erreur de type I)
  • Précision : Proportion avec laquelle le classifieur fait des prédictions correctes. A = (VP+VN)/Total
  • Taux de vrai positif (sensibilité) : VP/(VP+FN)
  • Taux de vai négatif (spécificité) : VN/(FP+VN)

Ci-dessous se trouve une matrice de confusion généralisée démontrant la répartition.

Voici un exemple simple et concret d'utilisation d'une matrice de confusion générale. Si vous avez enseigné à un modèle à analyser une série d'images de chats et chiens pour identifier les images représentant un chat et les images ne représentant pas un chat (ici, un chien). Si votre modèle est parfait, il fait ses prédictions avec une précision de 100 %. Il y a aussi la possibilité que votre modèle ait 0 % de précision. Cependant, le résultat le plus probable se situe entre les deux. C'est là qu'une matrce de confusion est utile.

Voici un résultat hypothétique.

Le modèle hypothétique a prédit de manière précise 15 images de chat (TP) et 10 images de chien, ou qui ne sont pas des images de chat (TN). Cependant, le modèle a identifié de manière incorrecte 40 chiens comme étant des chats (FN) et 35 chats comme étant des chiens (FP).

  • Précision de ce classifieur : (15+10) / (15+35+40+10) = .25
  • Sensibilité de ce classifieur : 15/(15+35) = .3
  • Spécificité de ce classifieur : 10/(40+10) = .2

La conclusion est que les prédictions de ce modèle s'avèrent correctes 25 % du temps (précision). Lorsque l'image représente un chat, ce modèle prédit précisément un chat 30 % du temps (sensibilité). Lorsque l'image ne représente pas un chat, ce modèle prédit précisément que l'image ne représente pas un chat 20 % du temps (spécificité).