Extraire des entités nommées à partir de données textuelles - 6.5

Natural Language Processing

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Traitement automatique du langage naturel
Gouvernance de données > Systèmes tiers > Traitement automatique du langage naturel
Qualité et préparation de données > Systèmes tiers > Traitement automatique du langage naturel
EnrichPlatform
Studio Talend
Dans ce Job, le tNLPPredict prédit les entités nommées et libelle automatiquement les données textuelles, à l'aide d'un modèle de classification généré par le tNLPModel.

Procédure

  1. Double-cliquez sur le tNLPPredict pour afficher sa vue Basic settings et définissez les propriétés du composant.
    1. Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent.
    2. Dans la liste Original text column, sélectionnez la colonne qui contient le texte à libeller, text dans cet exemple.
    3. Dans la liste Token column, sélectionnez la colonne utilisée pour la création des caractéristiques et la prédiction, tokens dans cet exemple.
    4. Dans la liste NLP Library, sélectionnez la même bibliothèque que celle utilisée pour générer le modèle de classification.
    5. Saisissez le chemin d'accès au modèle de classification dans le champ NLP model path.
  2. Double-cliquez sur le tFilterColumns pour afficher sa vue Basic settings et définissez les propriétés du composant.
    1. Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent.
    2. Configurez le schéma en Built-In, puis cliquez sur Edit schema pour conserver uniquement les colonnes contenant le texte original, le texte libellé et les libellés.
  3. Double-cliquez sur le tFileOutputDelimited pour afficher sa vue Basic settings et définissez les propriétés du composant.
    1. Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent.
    2. Spécifiez le dossier de destination du texte libellé et des libellés dans le champ Folder.
    3. Saisissez "\n" dans le champ Row separator et ";" dans le champ Field separator.
  4. Appuyez sur F6 pour sauvegarder et exécuter le Job.

Résultats

Les fichiers écrits en sortie contiennent le texte original, le texte libellé et les libellés. La tâche de reconnaissance d'entités nommées s'est déroulée correctement puisque les noms de personnes ont été extraits du texte original.