tNLPPreprocessing - 7.3

Traitement du langage naturel

Version
7.3
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Traitement automatique du langage naturel
Gouvernance de données > Systèmes tiers > Traitement automatique du langage naturel
Qualité et préparation de données > Systèmes tiers > Traitement automatique du langage naturel
Last publication date
2024-02-22

Ce composant prépare un échantillon de texte et le divise en tokens. Les tokens peuvent être des mots, des nombres ou des signes de ponctuation.

Le tNLPPreprocessing écrit en sortie une colonne contenant tous les tokens du texte d'entrée, séparés par des tabulations. Vous pouvez convertir la sortie au format CoNLL et annoter manuellement le texte. Ensuite, vous pouvez utiliser ces données pour entraîner un modèle et générer des caractéristiques à l'aide du tNLPModel.

Ce composant s'exécute uniquement avec les versions de Spark 1.6 et 2.0.

Pour plus de technologies supportées par Talend, consultez Composants Talend.