Exécuter le modèle d'arbre de décision à l'aide des données de test - Cloud - 8.0

Apprentissage automatique (Machine learning)

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
Last publication date
2024-02-21

Cette section présente comment tester votre modèle d'arbre de décision et examiner la manière dont il prédit la variable cible.

Procédure

  1. Créez un Job Big Data Batch en spécifiant le framework Spark.
  2. Du Job précédent, copiez-collez le tHDFSConfiguration et le tFileInputDelimited.
  3. Dans les paramètres du tFileInputDelimited, modifiez la valeur du champ Folder/File pour pointer vers les données de test.
    Les données de test ont le même schéma que les données d'apprentissage. Les seules différences sont les détails de contenu et le nombre de lignes.
  4. Ajoutez un tPredict dans l'espace de modélisation graphique. Reliez le tFileInputDelimited au tPredict à l'aide d'un lien Row > Main.
  5. Double-cliquez sur le tPredict pour ouvrir sa vue Basic settings.
  6. Cochez la case Define a storage configuration component et sélectionnez le tHDFSConfiguration.
  7. Dans la liste Model Type, sélectionnez Decision Tree Model.
  8. Ajoutez le chemin au modèle créé dans la section précédente.
  9. Cliquez sur le bouton Sync columns, puis cliquez sur le bouton [...] pour modifier le schéma.
    Le panneau de sortie ajoute une colonne nommée label. Elle est la valeur factice pour la valeur prédite par le modèle de décision.
  10. Ajoutez un tReplace dans l'espace de modélisation graphique et reliez-le au tPredict à l'aide d'un lien Row > Main.
  11. Configurez le tReplace comme suit.

    Le tReplace est requis pour convertir la sortie de prédiction depuis le tPredict à partir d'une représentation booléenne (0.0,10) en la représentation des données de test (yes/no).

  12. Ajoutez un tAggregateRow dans l'espace de modélisation graphique et reliez-le au tReplace à l'aide d'un lien Row > Main.

    Le tAggregateRow est utilisé pour créer un résumé statistique des performances du modèle utilisé dans la section suivante.

  13. Configurez le tAggregateRow comme suit.
    La colonne de sortie Output column dans la section Operations a été choisie au hasard. age n'a pas été choisi pour une raison spécifique autre que la simplification du calcul pour Group by.
  14. Ajoutez un tLogRow dans l'espace de modélisation graphique et reliez-le au tAggregateRow à l'aide d'un lien Row > Main.

    Voici la configuration du Job.

  15. Exécutez le Job.
    Comme pour le Job d'apprentissage précédemment créé, vous pouvez exécuter ce Job localement ou sur le cluster.

Résultats

Le résultat attendu de ce Job est un résumé sous forme de tableau présentant les prédictions du modèle par rapport au résultat réel.

count (age) (nombre, âge) conversion (actual outcome) (résultat réel) label (predicted outcome) (libellé, résultat prédit)
41 yes non
12 non yes
15 yes yes
446 non non
Sur un total de 514 enregistrements de test, la résultat est le suivant :
  • Le modèle a prédit de manière incorrecte :
    • (conversion = no) true pour 41 des tests
    • (conversion = no) false pour 12 des tests
  • Le modèle a prédit de manière correcte :
    • (conversion = no) false pour 15 des tests
    • (conversion = no) true pour 446 des tests