Le traitement du langage naturel à l'aide du Studio Talend - 6.5

Natural Language Processing

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Traitement automatique du langage naturel
Gouvernance de données > Systèmes tiers > Traitement automatique du langage naturel
Qualité et préparation de données > Systèmes tiers > Traitement automatique du langage naturel
EnrichPlatform
Studio Talend

À l'aide du Studio Talend et de l'apprentissage automatique sur Spark, vous pouvez apprendre à un ordinateur à comprendre la façon dont les humains apprennent et utilisent le langage naturel.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Qu'est-ce que le traitement du langage naturel ?

Le traitement du langage naturel comprend les tâches suivantes :
  • la division d'un texte en termes individuels, qui sont des unités linguistiques basiques telles que des mots ou des signes de ponctuation,

  • segmentation de phrases, qui consiste à segmenter les données d'entrée en phrases, en se basant sur les caractères marquant la fin d'une phrase tels que le point ou le point d'interrogation,

  • la reconnaissance d'entités nommées, qui consiste à rechercher et à classer des noms de personnes, des dates ainsi que des noms de lieux et d'organisations au sein d'un texte.

Le traitement du langage naturel est utile pour :
  • extraire des noms de personnes ou d'entreprises à partir de ressources textuelles,

  • regrouper des discussions autour d'un même sujet sur un forum,

  • trouver des discussions où certaines personnes sont nommées sans que ces personnes n'y participent,

  • établir un lien entre des entités.

Le traitement du langage naturel peut vous aider à établir un lien entre des profils d'utilisateurs et des noms mentionnés dans un texte, entre des personnes et des organisations ou entre des personnes et toute information qui peut être utilisée pour les réidentifier.

Workflow

L'apprentissage automatique sur Spark comprend généralement deux phases : la première phase calcule un modèle en se basant sur l'historique des données et les heuristiques mathématiques. La seconde phase applique le modèle sur de nouvelles données textuelles. Dans Studio Talend, la premère phase est implémentée par deux Jobs :
  • le premier Job comprend les composants tNLPPreprocessing et tNormalize,

  • le second Job comprend un tNLPModel.

La seconde phase est implémentée dans un troisième Job comprenant un tNLPPredict.

Dans ce workflow, le tNLPPreprocessing :
  • divise un échantillon de texte en termes individuels,

  • nettoie l'échantillon de texte en supprimant toutes les balises HTML.

Ensuite, le tNormalize convertit les termes individuels au format CoNLL.

Vous pouvez ensuite annoter les termes individuels et ajouter des caractéristiques optionnelles en modifiant les fichiers manuellement. Par exemple, vous pouvez ajouter le libellé PER aux noms de personnes :
Ensuite, vous pouvez utiliser le texte divisé en termes individuels que vous avez annoté avec le tNLPModel dans le second Job où le tNLPModel :
  • crée des caractéristiques pour chaque terme individuel,

  • apprend un modèle de classification.

Le tNLPPredict libelle automatiquement les données textuellesf à l'aide du modèle de classification généré par le tNLPModel.

Par exemple, vous pouvez extraire les entités nommées avec le libellé <PER> :