Exécuter le modèle d'arbre de décision à l'aide des données de test

Exécuter le modèle d'arbre de décision à l'aide des données de test - 7.3

Apprentissage automatique (Machine learning)

Version

7.3

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Real-Time Big Data Platform

Module

Studio Talend

Content

Création et développement > Systèmes tiers > Composants Machine Learning

Gouvernance de données > Systèmes tiers > Composants Machine Learning

Qualité et préparation de données > Systèmes tiers > Composants Machine Learning

Last publication date

2024-02-22

Cette section présente comment tester votre modèle d'arbre de décision et examiner la manière dont il prédit la variable cible.

Procédure

Créez un Job Big Data Batch en spécifiant le framework Spark.
Copiez le tHDFSConfiguration du Job précédent et collez-le dans l'espace de modélisation graphique.
Copiez le tFileInputDelimited du Job précédent et collez-le dans l'espace de modélisation graphique.
Dans les paramètres du tFileInputDelimited, modifiez la valeur du champ Folder/File pour pointer vers les données de test.
Les données de test ont le même schéma que les données d'apprentissage. Les seules différences sont les détails de contenu et le nombre de lignes.
Ajoutez un composant tPredict dans l'espace de modélisation graphique. Reliez le tFileInputDelimited au tPredict à l'aide d'un lien Row Main.
Double-cliquez sur le tPredict.
Cochez la case Define a storage configuration component et sélectionnez le tHDFSConfiguration.
Sélectionnez Decision Tree Model dans la liste Model Type.
Ajoutez le chemin au modèle créé dans la section précédente.
Cliquez sur le bouton Sync columns, puis cliquez sur le bouton [...] pour modifier le schéma.
Le panneau de sortie ajoute une colonne nommée label. Elle est la valeur factice pour la valeur prédite par le modèle de décision.
Ajoutez un tReplace dans l'espace de modélisation graphique et reliez-le au tPredict à l'aide d'un lien Main.
Configurez le tReplace comme suit.

Le tReplace est requis pour convertir la sortie de prédiction depuis le tPredict à partir d'une représentation booléenne (0.0,10) en la représentation des données de test (yes/no).
Ajoutez un tAggregateRow et reliez le tReplace au tAggregateRow à l'aide d'un lien Main.
Configurez le tAggregateRow comme suit.
La colonne de sortie Output dans la section Operations a été choisie au hasard. age n'a pas été choisi pour une raison spécifique autre que la simplification du calcul pour Group by.

Le tAggregateRow est utilisé pour créer un résumé statistique des performances du modèle utilisé dans la section suivante.
Ajoutez un tLogRow dans l'espace de modélisation graphique et reliez le tAggregateRow à ce composant.

Votre Job doit ressembler à ceci.
Exécutez le Job.
Comme pour le Job d'apprentissage précédemment créé, vous pouvez exécuter ce Job localement ou sur le cluster.

Résultats

Le résultat attendu de ce Job est un résumé sous forme de tableau présentant les prédictions du modèle par rapport au résultat réel.

count (age) (nombre, âge)	conversion (actual outcome) (résultat réel)	label (predicted outcome) (libellé, résultat prédit)
41	yes	non
12	non	yes
15	yes	yes
446	non	non

Sur un total de 514 enregistrements de test, la résultat est le suivant :

Le modèle a prédit de manière incorrecte (conversion = no) true pour 41 des tests
Le modèle a prédit de manière incorrecte (conversion = no) false pour 12 des tests
Le modèle a prédit de manière précise (conversion = no) false pour 15 des tests
Le modèle a prédit de manière précise (conversion = no) true pour 446 des tests