Exécuter le modèle d'arbre de décision à l'aide des données de test - 7.3

Apprentissage automatique (Machine learning)

Version
7.3
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
Cette section présente comment tester votre modèle d'arbre de décision et examiner la manière dont il prédit la variable cible.

Procédure

  1. Créez un Job Big Data Batch en spécifiant le framework Spark.
  2. Copiez le tHDFSConfiguration du Job précédent et collez-le dans l'espace de modélisation graphique.
  3. Copiez le tFileInputDelimited du Job précédent et collez-le dans l'espace de modélisation graphique.
  4. Dans les paramètres du tFileInputDelimited, modifiez la valeur du champ Folder/File pour pointer vers les données de test.
    Les données de test ont le même schéma que les données d'apprentissage. Les seules différences sont les détails de contenu et le nombre de lignes.
  5. Ajoutez un composant tPredict dans l'espace de modélisation graphique. Reliez le tFileInputDelimited au tPredict à l'aide d'un lien Row Main.
  6. Double-cliquez sur le tPredict.
  7. Cochez la case Define a storage configuration component et sélectionnez le tHDFSConfiguration.
  8. Sélectionnez Decision Tree Model dans la liste Model Type.
  9. Ajoutez le chemin au modèle créé dans la section précédente.
  10. Cliquez sur le bouton Sync columns, puis cliquez sur le bouton [...] pour modifier le schéma.
    Le panneau de sortie ajoute une colonne nommée label. Elle est la valeur factice pour la valeur prédite par le modèle de décision.
  11. Ajoutez un tReplace dans l'espace de modélisation graphique et reliez-le au tPredict à l'aide d'un lien Main.
  12. Configurez le tReplace comme suit.

    Le tReplace est requis pour convertir la sortie de prédiction depuis le tPredict à partir d'une représentation booléenne (0.0,10) en la représentation des données de test (yes/no).

  13. Ajoutez un tAggregateRow et reliez le tReplace au tAggregateRow à l'aide d'un lien Main.
  14. Configurez le tAggregateRow comme suit.
    La colonne de sortie Output dans la section Operations a été choisie au hasard. age n'a pas été choisi pour une raison spécifique autre que la simplification du calcul pour Group by.

    Le tAggregateRow est utilisé pour créer un résumé statistique des performances du modèle utilisé dans la section suivante.

  15. Ajoutez un tLogRow dans l'espace de modélisation graphique et reliez le tAggregateRow à ce composant.

    Votre Job doit ressembler à ceci.

  16. Exécutez le Job.
    Comme pour le Job d'apprentissage précédemment créé, vous pouvez exécuter ce Job localement ou sur le cluster.

Résultats

Le résultat attendu de ce Job est un résumé sous forme de tableau présentant les prédictions du modèle par rapport au résultat réel.

count (age) (nombre, âge) conversion (actual outcome) (résultat réel) label (predicted outcome) (libellé, résultat prédit)
41 yes non
12 non yes
15 yes yes
446 non non
Sur un total de 514 enregistrements de test, la résultat est le suivant :
  • Le modèle a prédit de manière incorrecte (conversion = no) true pour 41 des tests
  • Le modèle a prédit de manière incorrecte (conversion = no) false pour 12 des tests
  • Le modèle a prédit de manière précise (conversion = no) false pour 15 des tests
  • Le modèle a prédit de manière précise (conversion = no) true pour 446 des tests