Évaluer et générer un modèle de classification - 6.5

Natural Language Processing

EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Systèmes tiers > Traitement automatique du langage naturel
Gouvernance de données > Systèmes tiers > Traitement automatique du langage naturel
Qualité et préparation de données > Systèmes tiers > Traitement automatique du langage naturel
Le tNLPModel lit des données d'apprentissage au format CoNLL afin d'évaluer et de générer un modèle de classification.

Procédure

  1. Double-cliquez sur le tNLPModel pour afficher sa vue Basic settings et définir ses propriétés.
    1. Cliquez sur le bouton [+] sous la table Feature template afin d'y ajouter des lignes.
    2. Cliquez dans la colonne Features pour sélectionner les caractéristiques à générer.
    3. Pour chaque caractéristique, spécifiez sa position relative.

      Par exemple, -2,-1,0,1,2 signifie que vous utilisez le terme individuel actuel, les deux termes individuels qui le suivent et qui le précèdent en tant que caractéristiques.

    4. Dans la liste NLP Library, sélectionnez la même bibliothèque que celle utilisée pour le prétraitement des données d'apprentissage.
  2. Pour évaluer le modèle, cochez la case Run cross validation evaluation et saisissez 2 dans le champ Fold.

    Cela signifie que les données d'apprentissage sont découpées en deux partitions : le jeu de données d'apprentissage et le jeu de données de test. Le processus de validation est répété deux fois.

  3. Appuyez sur F6 pour sauvegarder et exécuter le Job.
    Les résultats de la validation croisée d'ordre K s'affichent dans la vue Run :
    • Precision est le ratio d'entités nommées correctement prédites sur le nombre total d'entités nommées prédites.
    • Recall est le ratio d'entités nommées correctement prédites sur le nombre total d'entités nommées.
    • F1 score est la moyenne harmonique entre Recall et Precision.
  4. Décochez la case Run cross validation evaluation.
  5. Cochez la case Save the model on file system pour enregistrer le modèle localement dans le dossier spécifié dans le champ Folder.
  6. Appuyez sur F6 pour sauvegarder et exécuter le Job.

Résultats

Le fichier de modèle est stocké dans le dossier spécifié. Vous pouvez maintenant utiliser le modèle généré par le composant tNLPPredict afin d'effectuer une prédiction des entités nommées et de libeller automatiquement les données textuelles.