Accéder au contenu principal Passer au contenu complémentaire

Paramétrer les hyper-paramètres et utiliser la validation croisée à k plis afin d'améliorer le modèle de rapprochement

Test du modèle en utilisant la technique de la validation croisée à k plis

La technique de la validation croisée à k plis consiste en une évaluation de la performance du modèle sur un jeu de données indépendant.

Pour tester le modèle, le jeu de données est partitionné en k sous-ensembles et l'algorithme Random forest est exécuté k fois :

  • À chaque itération, l'un des k sous-ensemble est utilisé comme jeu de validation et les k-1 sous-ensembles restants sont utilisées comme jeu d'entraînement.
  • Un score pour chacune des k exécutions est calculé, une moyenne de scores obtenues est calculée afin de pouvoir calculer le score global.

Paramétrer les hyper-paramètres de l'agorithme Random forest en utilisant la recherche dans une grille (grid search)

Vous pouvez définir des valeurs pour les deux hyper-paramètres de l'algorithme Random forest :

  • Le nombre d'arbres de décision
  • La profondeur maximale d'un arbre de décision

Afin d'améliorer la qualité du modèle et de paramétrer les hyper-paramètres, la recherche dans la grille construit des modèles pour chaque combinaison des valeurs des deux hyper-paramètres de l'algorithme Random forest, dans les limites que vous avez définies.

Par exemple :

  • Le nombre d'arbres est compris entre 5 et 50 avec un intervalle de 5; et
  • la profondeur d'un arbre est comprise entre 5 et 10 avec un intervalle de 1.

Dans cet exemple, il y aura 60 combinaisons différentes (10 × 6).

Seule la meilleure combinaison de valeurs des deux hyper-paramètres sera retenue. Cette mesure sera reportée lors de la validation croisé à k plis.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !