tNLPPreprocessing - 6.5

Natural Language Processing

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Traitement automatique du langage naturel
Gouvernance de données > Systèmes tiers > Traitement automatique du langage naturel
Qualité et préparation de données > Systèmes tiers > Traitement automatique du langage naturel
EnrichPlatform
Studio Talend

Ce composant prépare un échantillon de texte et le divise en tokens. Les tokens peuvent être des mots, des nombres ou des signes de ponctuation.

Le tNLPPreprocessing écrit en sortie une colonne contenant tous les tokens du texte d'entrée, séparés par des tabulations. Vous pouvez convertir la sortie au format CoNLL et annoter manuellement le texte. Ensuite, vous pouvez utiliser ces données pour entraîner un modèle et générer des caractéristiques à l'aide du tNLPModel.

Ce composant s'exécute uniquement avec les versions de Spark 1.6 et 2.0.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.