Propriétés du tNaiveBayesModel pour Apache Spark Batch - 6.5

Machine Learning

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tNaiveBayesModel s'exécutant dans le framework de Jobs Spark Batch.

Le composant tNaiveBayesModel Spark Batch appartient à la famille Machine Learning.

Ce composant est disponible dans les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Basic settings

Define a storage configuration component

Sélectionnez le composant de configuration à utiliser pour fournir les informations de configuration pour la connexion au système de fichiers cible, comme HDFS.

Si vous laissez cette case décochée, le système de fichiers cible est le système local.

Le composant de configuration à utiliser doit se trouver dans le même Job. Par exemple, si vous avez ajouté un composant tHDFSConfiguration dans votre Job, vous pouvez le sélectionner pour écrire le résultat dans un système HDFS donné.

Spark version

Sélectionnez la version de Spark que vous utilisez.

Pour les versions à partir de Spark V1.4, les paramètres à configurer sont :
  • Save the model on file system :

    Cochez cette case pour stocker le modèle dans un système de fichiers donné. Sinon, le modèle est stocké dans la mémoire. Le bouton pour parcourir votre système ne fonctionne pas en mode Local de Spark. Si vous utilisez le mode Yarn ou Standalone de Spark, assurez-vous d'avoir correctement configuré la connexion dans un composant de configuration au sein du même Job, comme le tHDFSConfiguration.

  • Label column :

    Sélectionnez la colonne d'entrée utilisée pour fournir les libellés de classification. Les enregistrements de cette colonne sont utilisés comme noms de classe (cible, en termes de classification) des éléments à classifier.

  • Feature column :

    Sélectionnez la colonne d'entrée utilisée pour fournir les caractéristiques. Très souvent, cette colonne est la sortie des calculs de pré-traitement des caractéristiques effectués par le tModelEncoder.

Pour Spark 1.3, consultez les paramètres expliqués dans les lignes suivantes les cette table.

Column type

Renseignez cette table afin de définir le type de caractéristiques de chaque colonne d'entrée, afin de calculer le modèle de classification.
  • Column : cette colonne liste automatiquement la colonne d'entrée récupérée du schéma d'entrée.

  • Usage : sélectionnez le type de caractéristique que les enregistrements de chaque colonne d'entrée représentent.

    Par exemple, l'âge des personnes représente la caractéristique continue, alors que leur genre est une caractéristique catégorique (également appelée caractéristique discrète).

    Si vous sélectionnez Label pour une colonne d'entrée, les enregistrements de cette colonne sont utilisés comme noms de classes (cibles en termes de classification) des éléments à classifier. Si vous devez ignorer une colonne dans le calcul de modèle, sélectionnez Unused.

  • Bin edges : cette colonne est activée uniquement lorsque la colonne d'entrée représente la caractéristique continue. Cela vous permet de convertir les données continues en intervalles, c'est-à-dire de partitionner les données continues en des segments semi-ouverts, en leur ajoutant des limites de valeurs entre guillemets doubles.

    Par exemple, si vous saisissez "18;35" pour une colonne relative à l'âge des personnes, ces âges seront regroupés en trois segments. Ces segments sont les suivants : un segment contenant les âges inférieurs ou égaux à 18, un segment contenant les âges supérieurs à 18 et inférieurs ou égaux à 35 et un segment contenant les âges supérieurs à 35.

  • Categories : cette colonne est active uniquement lorsque la colonne d'entrée représente la caractéristique catégorique. Vous devez saisir les noms de chaque catégorie à utiliser et les séparer à l'aide d'un point-virgule (;), par exemple, "male;female".

    Notez que les catégories que vous saisissez doivent exister dans la colonne d'entrée.

  • Class name : cette colonne est activée uniquement lorsque l'option Label est sélectionnée dans la colonne Usage. Vous devez saisir le nom des classes utilisées dans la classification et les séparer à l'aide d'un point-virgule (;), par exemple, "platinum-level customer;gold-level customer".

Training percentage

Saisissez le pourcentage (exprimé sous forme décimale) des données d'entrée à utiliser pour l'apprentissage du modèle de classification. Le reste des données est utilisé pour tester le modèle.

PMML model path

Saisissez le répertoire dans lequel stocker le modèle de classification généré, au sein du système de fichiers à utiliser.

Le bouton pour parcourir votre système ne fonctionne pas en mode Local de Spark. Si vous utilisez le mode Yarn ou Standalone de Spark, assurez-vous d'avoir correctement configuré la connexion dans un composant de configuration au sein du même Job, comme le tHDFSConfiguration.

Pour plus d'informations concernant le format PMML utilisé par le modèle de classification naïve bayésienne, consultez http://www.dmg.org/v4-2-1/NaiveBayes.html (en anglais).

Parquet model name

Saisissez le nom à utiliser pour le modèle de classification.

Utilisation

Règle d'utilisation

Ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée.

Évaluation du modèle

Les paramètres à configurer sont des paramètres libres. Leurs valeurs peuvent donc être fournies par des essais, des suppositions empiriques ou autres. Ils n'ont aucune valeur optimale applicable pour les ensembles de données.

Par conséquent, vous devez effectuer l'apprentissage du modèle de classification généré avec différentes valeurs de paramètres jusqu'à ce que vous obteniez le meilleur score d'exactitude (Accuracy, ACC) ainsi que le score optimal de précision, rappel et mesure-F1 pour chaque classe :

  • le score d'exactitude varie de 0 à 1 indique combien une classification est exacte. Plus le score se rapproche de 1, plus exacte est sa classification correspondante.

  • le score de précision varie de 0 à 1, indique combien sont pertinents les éléments sélectionnés par la classification par rapport à une classe donnée.

  • le score de rappel varie de 0 à 1, indique combien d'éléments pertinents sont sélectionnés.

  • le score de mesure-F1 est la moyenne harmonique du score de précision et du score de rappel.

Scores

Ces scores peuvent être écrits en sortie dans la console de la vue Run lorsque vous exécutez le Job, une fois ajouté le code suivant dans la vue Log4j de la boîte de dialogue [Project Settings].
<!-- DataScience Logger -->
<logger name= "org.talend.datascience.mllib" additivity= "false" >
<level value= "INFO" />
<appender-ref ref= "CONSOLE" />
</logger>

Ces scores sont écrits en sortie avec les autres informations Log4j de niveau INFO. Si vous souhaitez empêcher l'écriture en sortie d'informations non pertinentes, vous pouvez, par exemple, passer le niveau Log4j de ce type d'informations à WARN. Vous devez laisser le niveau de DataScience Logger à INFO.

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend .

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).