Apprendre le modèle à l'aide de Random Forest - 6.5

Machine Learning

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tRandomForestModel pour ouvrir sa vue Component.
  2. Dans la liste Label column, sélectionnez la colonne fournissant les classes à utiliser pour la classification. Dans ce scénario, sélectionnez label, qui contient deux noms de classes : spam pour les messages indésirables et ham pour les messages normaux.
  3. Dans la liste Features column, sélectionnez la colonne fournissant les vecteurs de caractéristiques à analyser. Dans ce scénario, sélectionnez features_vect, qui combine toutes les caractéristiques.
  4. Cochez la case Save the model on file system et, dans le champ HDFS folder qui s'affiche, saisissez le répertoire à utiliser pour stocker le modèle généré.
  5. Dans le champ Number of trees in the forest, saisissez le nombre d'arbres de décision que vous souhaitez que le tRandomForestModel construise. Vous devez essayer différents nombres pour exécuter le Job courant afin de créer plusieurs fois le modèle de classification. Après comparaison des résultats d'évaluation de chaque modèle créé à chaque exécution, vous pouvez décider du nombre à utiliser. Dans ce scénario, saisissez 20.
    Un Job d'évaluation sera présenté dans l'une des sections suivantes.
  6. Laissez les autres paramètres tels qu'ils sont.