Paramétrer les hyper-paramètres et utiliser la validation croisée à k plis afin d'améliorer le modèle de rapprochement - Cloud - 8.0

Rapprochement de données à l'aide des outils Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Test du modèle en utilisant la technique de la validation croisée à k plis

La technique de la validation croisée à k plis consiste en une évaluation de la performance du modèle sur un jeu de données indépendant.

Pour tester le modèle, le jeu de données est partitionné en k sous-ensembles et l'algorithme Random forest est exécuté k fois :

  • À chaque itération, l'un des k sous-ensemble est utilisé comme jeu de validation et les k-1 sous-ensembles restants sont utilisées comme jeu d'entraînement.
  • Un score pour chacune des k exécutions est calculé, une moyenne de scores obtenues est calculée afin de pouvoir calculer le score global.

Paramétrer les hyper-paramètres de l'agorithme Random forest en utilisant la recherche dans une grille (grid search)

Vous pouvez définir des valeurs pour les deux hyper-paramètres de l'algorithme Random forest :

  • Le nombre d'arbres de décision
  • La profondeur maximale d'un arbre de décision

Afin d'améliorer la qualité du modèle et de paramétrer les hyper-paramètres, la recherche dans la grille construit des modèles pour chaque combinaison des valeurs des deux hyper-paramètres de l'algorithme Random forest, dans les limites que vous avez définies.

Par exemple :

  • Le nombre d'arbres est compris entre 5 et 50 avec un intervalle de 5; et
  • la profondeur d'un arbre est comprise entre 5 et 10 avec un intervalle de 1.

Dans cet exemple, il y aura 60 combinaisons différentes (10 × 6).

Seule la meilleure combinaison de valeurs des deux hyper-paramètres sera retenue. Cette mesure sera reportée lors de la validation croisé à k plis.