Convertir le texte divisé en termes individuels au format CoNLL - 6.5

Natural Language Processing

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Traitement automatique du langage naturel
Gouvernance de données > Systèmes tiers > Traitement automatique du langage naturel
Qualité et préparation de données > Systèmes tiers > Traitement automatique du langage naturel
EnrichPlatform
Studio Talend
Afin de pouvoir apprendre un modèle de classification à partir d'un texte, vous devez le diviser en termes individuels, puis le convertir au format CoNLL à l'aide du tNormalize.

Procédure

  1. Double-cliquez sur le tNLPPreprocessing pour afficher sa vue Basic settings et définissez les propriétés du composant.
    1. Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent.
    1. Dans la liste NLP Library, sélectionnez la bibliothèque à utiliser pour diviser le texte en termes individuels. Dans cet exemple, ScalaNLP est utilisée.
  2. Dans la liste Column to preprocess, sélectionnez la colonne qui contient le texte à diviser en termes individuels, message dans cet exemple.
  3. Double-cliquez sur le tFilterColumns pour afficher sa vue Basic settings et définissez les propriétés du composant.
  4. Cliquez sur Edit schema pour ajouter la colonne tokens au schéma de sortie car il s'agit de la colonne à normaliser. Cliquez sur OK pour valider.
  5. Double-cliquez sur le tNormalize pour afficher sa vue Basic settings et définissez les propriétés du composant.
    1. Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent.
    2. Dans la liste Column to normalize, sélectionnez tokens.
    3. Dans la liste Item separator, saisissez "\t" afin de séparer les termes individuels par une tabulation dans le fichier de sortie.
  6. Double-cliquez sur le tFileOutputDelimited pour afficher sa vue Basic settings et définissez les propriétés du composant.
    1. Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent.
    2. Dans le champFolder, configurez le chemin d'accès au dossier dans lequel vous souhaitez enregistrer les fichiers CoNLL.
    3. Dans le champRow Separator, saisissez "\n".
    4. Dans le champField Separator, saisissez "\t" pour séparer les champs par une tabulation.
  7. Appuyez sur F6 pour sauvegarder et exécuter le Job.

Résultats

Les fichiers de sortie sont créés dans le dossier spécifié. Les fichiers comporte une seule colonne contenant un terme individuel par ligne.

Vous pouvez ensuite annoter les noms de personnes avec le libellé PER et les autres termes individuels avec O avant de pouvoir apprendre un modèle de classification à partir de ces données textuelles :