Évaluer et générer un modèle de classification - 6.5

Natural Language Processing

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Traitement automatique du langage naturel
Gouvernance de données > Systèmes tiers > Traitement automatique du langage naturel
Qualité et préparation de données > Systèmes tiers > Traitement automatique du langage naturel
EnrichPlatform
Studio Talend
Le tNLPModel lit des données d'apprentissage au format CoNLL afin d'évaluer et de générer un modèle de classification.

Procédure

  1. Double-cliquez sur le tNLPModel pour afficher sa vue Basic settings et définissez les propriétés du composant.
    1. Cliquez sur le bouton [+] sous la table Feature template afin d'y ajouter des lignes.
    2. Cliquez dans la colonne Features pour sélectionnez les caractéristiques à créer.
    3. Pour chaque caractéristique, spécifiez sa position relative.

      Par exemple, -2,-1,0,1,2 signifie que vous utilisez le terme individuel actuel, les deux termes individuels qui le suivent et qui le précèdent en tant que caractéristiques.

    4. Dans la liste NLP Library, sélectionnez la même bibliothèque que celle utilisée pour le prétraitement des données d'apprentissage.
  2. Afin d'évaluer le modèle, cochez la case Run cross validation evaluation et saisissez 2 dans le champ Fold.

    Cela signifie que les données d'apprentissage sont découpées en deux partitions : le jeu d'apprentissage et le jeu de test. Le processus de validation est répété deux fois.

  3. Appuyez sur F6 pour sauvegarder et exécuter le Job.
    Les résultats du processus de validation croisée d'ordre K s'affichent dans la console de la vue Run :
    • Precision correspond au ratio entre les entités nommées, correctement prédites et le nombre total d'entités nommées prédites.
    • Recall correspond au ratio entre les entités nommées, correctement prédites et le nombre total d'entités nommées.
    • F1 score correspond à la moyenne harmonique des scores recall et precision.
  4. Décochez la case Run cross validation evaluation.
  5. Cochez la case Save the model on file system pour enregistrer le modèle localement dans le dossier spécifié dans le champ Folder.
  6. Appuyez sur F6 pour sauvegarder et exécuter le Job.

Résultats

Les fichiers de modèles sont stockés dans le dossier spécifié. Vous pouvez maintenant utiliser le modèle généré par le composant tNLPPredict afin d'effectuer une prédiction des entités nommées et de libeller automatiquement les données textuelles.