Apprendre le modèle à l'aide de Random Forest - 6.5

Machine Learning

Version
6.5
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning

Procédure

  1. Double-cliquez sur le tRandomForestModel pour ouvrir sa vue Component.
  2. Dans la liste Label column, sélectionnez la colonne fournissant les classes à utiliser pour la classification. Dans ce scénario, sélectionnez label, qui contient deux noms de classes : spam pour les messages indésirables et ham pour les messages normaux.
  3. Dans la liste Features column, sélectionnez la colonne fournissant les vecteurs de caractéristiques à analyser. Dans ce scénario, sélectionnez features_vect, qui combine toutes les caractéristiques.
  4. Cochez la case Save the model on file system et, dans le champ HDFS folder qui s'affiche, saisissez le répertoire à utiliser pour stocker le modèle généré.
  5. Dans le champ Number of trees in the forest, saisissez le nombre d'arbres de décision que vous souhaitez que le tRandomForestModel construise. Vous devez essayer différents nombres pour exécuter le Job courant afin de créer plusieurs fois le modèle de classification. Après comparaison des résultats d'évaluation de chaque modèle créé à chaque exécution, vous pouvez décider du nombre à utiliser. Dans ce scénario, saisissez 20.
    Un Job d'évaluation sera présenté dans l'une des sections suivantes.
  6. Laissez les autres paramètres tels qu'ils sont.