Propriétés du tNaiveBayesModel pour Apache Spark Batch - 7.3

Apprentissage automatique (Machine learning)

Version
7.3
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning

Ces propriétés sont utilisées pour configurer le tNaiveBayesModel s'exécutant dans le framework de Jobs Spark Batch.

Le composant tNaiveBayesModel Spark Batch appartient à la famille Apprentissage automatique.

Ce composant est disponible dans les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Paramètres simples

Define a storage configuration component

Sélectionnez le composant de configuration à utiliser pour fournir les informations de configuration pour la connexion au système de fichiers cible, comme HDFS.

Si vous laissez cette case décochée, le système de fichiers cible est le système local.

Le composant de configuration à utiliser doit se trouver dans le même Job. Par exemple, si vous avez ajouté un composant tHDFSConfiguration dans votre Job, vous pouvez le sélectionner pour écrire le résultat dans un système HDFS donné.

Model location

  • Save the model on file system :

    Cochez cette case pour stocker le modèle dans un système de fichiers donné. Sinon, le modèle est stocké dans la mémoire. Le bouton pour parcourir votre système ne fonctionne pas en mode Local de Spark. Si vous utilisez le mode Yarn ou Standalone de Spark, assurez-vous d'avoir correctement configuré la connexion dans un composant de configuration au sein du même Job, comme le tHDFSConfiguration.

  • Path : ce champ est disponible uniquement lorsque l'option Save the model on file system est sélectionnée. Saisissez le chemin d'accès au système de fichiers donné.
Paramètres
  • Label column :

    Sélectionnez la colonne d'entrée utilisée pour fournir les libellés de classification. Les enregistrements de cette colonne sont utilisés comme noms de classe (cible, en termes de classification) des éléments à classifier.

  • Feature column :

    Sélectionnez la colonne d'entrée utilisée pour fournir les caractéristiques. Très souvent, cette colonne est la sortie des calculs de pré-traitement des caractéristiques effectués par le tModelEncoder.

Utilisation

Usage rule

Ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée.

Model evaluation

Les paramètres que vous devez configurer sont des paramètres libres. Leur valeur peut être fournie par des essais, des suppositions empiriques ou autres. Ils n'ont aucune valeur optimale applicable pour les ensembles de données.

Par conséquent, vous devez effectuer l'apprentissage du modèle de classification généré avec différentes valeurs de paramètres jusqu'à ce que vous obteniez le meilleur score d'exactitude (Accuracy, ACC) ainsi que le score optimal de précision, rappel et mesure-F1 pour chaque classe :

  • le score d'exactitude varie de 0 à 1 indique combien une classification est exacte. Plus le score se rapproche de 1, plus exacte est sa classification correspondante.

  • le score de précision varie de 0 à 1, indique combien sont pertinents les éléments sélectionnés par la classification par rapport à une classe donnée.

  • le score de rappel varie de 0 à 1, indique combien d'éléments pertinents sont sélectionnés.

  • le score de mesure-F1 est la moyenne harmonique du score de précision et du score de rappel.

Scores

Ces scores peuvent être écrits en sortie dans la console de la vue Run lorsque vous exécutez le Job, une fois ajouté le code suivant dans la vue Log4j de la boîte de dialogue Project Settings.
<!-- DataScience Logger -->
<logger name= "org.talend.datascience.mllib" additivity= "false" >
<level value= "INFO" />
<appender-ref ref= "CONSOLE" />
</logger>

Ces scores sont écrits en sortie avec les autres informations Log4j de niveau INFO. Si vous souhaitez empêcher l'écriture en sortie d'informations non pertinentes, vous pouvez, par exemple, passer le niveau Log4j de ce type d'informations à WARN. Vous devez laisser le niveau de DataScience Logger à INFO.

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations concernant cette fonctionnalité, consultez le Guide d'utilisation de Studio Talend.

Pour plus d'informations concernant les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).