Évaluer et générer un modèle de classification - 7.1

Natural Language Processing

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Traitement automatique du langage naturel
Gouvernance de données > Systèmes tiers > Traitement automatique du langage naturel
Qualité et préparation de données > Systèmes tiers > Traitement automatique du langage naturel
EnrichPlatform
Studio Talend
Le tNLPModel lit des données d'apprentissage au format CoNLL afin d'évaluer et de générer un modèle de classification.

Procédure

  1. Double-cliquez sur le tNLPModel pour afficher sa vue Basic settings et définir ses propriétés.
    1. Cliquez sur le bouton [+] sous la table Feature template afin d'y ajouter des lignes.
    2. Cliquez dans la colonne Features pour sélectionner les caractéristiques à générer.
    3. Pour chaque caractéristique, spécifiez sa position relative.

      Par exemple, -2,-1,0,1,2 signifie que vous utilisez le terme individuel actuel, les deux termes individuels qui le suivent et qui le précèdent en tant que caractéristiques.

    4. Dans la liste NLP Library, sélectionnez la même bibliothèque que celle utilisée pour le prétraitement des données d'apprentissage.
  2. Pour évaluer le modèle, cochez la case Run cross validation evaluation.
  3. Cochez les cases Save the model on file system et Store model in a single file pour enregistrer le modèle localement dans le dossier spécifié dans le champ Folder.
  4. Facultatif : Changez le niveau de log pour l'exécution du Job afin d'écrire en sortie le meilleur F1-score pondéré pour chaque amélioration du modèle, dans la vue Run :
    1. Dans la vue Run, cliquez sur l'onglet Advanced settings.
    2. Cochez la case log4jLevel et sélectionnez Info depuis la liste.
  5. Appuyez sur F6 afin de sauvegarder et exécuter le Job.

Résultats

Si vous avez défini la valeur de log4jLevel à Info, le meilleure F1-score pondéré est écrit en sortie dans la console de la vue Run, pour chaque amélioration du modèle.

Les éléments suivants sont également écrits en sortie dans la console de la vue Run :

Catégorie Élément
Pour chaque classe Le nom de la classe
True Positive : le nombre d'éléments correctement identifiés comme étant des éléments de cette classe.
Predicted True : le nombre d'éléments identifiés comme étant des éléments de cette classe.
Labeled True : le nombre d'éléments appartenant à cette classe.
Precision score : ce score varie de 0 à 1, indique la pertinence des éléments sélectionnés par la classification par rapport à une classe donnée.
Recall score : ce score varie de 0 à 1, indique combien d'éléments pertinents sont sélectionnés.
F1-score: la moyenne harmonique du Precision score (score de précision) et du Recall score (score de rappel).
Pour le meilleur modèle Le F1-score pondéré global

Le fichier de modèle est stocké dans le dossier spécifié. Vous pouvez maintenant utiliser le modèle généré par le composant tNLPPredict afin d'effectuer une prédiction des entités nommées et de libeller automatiquement les données textuelles.