Configurer le composant d'entrée - 6.5

Natural Language Processing

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Traitement automatique du langage naturel
Gouvernance de données > Systèmes tiers > Traitement automatique du langage naturel
Qualité et préparation de données > Systèmes tiers > Traitement automatique du langage naturel
EnrichPlatform
Studio Talend

Avant de commencer

  • Vous avez annoté les entités nommées dans les fichiers au format CoNLL qui seront utilisés pour l'apprentissage d'un modèle de classification.

Procédure

  1. Double-cliquez sur le tFileInputDelimited pour afficher sa vue Basic settings et définissez les propriétés du composant.
    1. Configurez le schéma en Built-In, puis cliquez sur Edit schema pour définir le schéma comme vous le souhaitez.

      Dans le schéma de sortie, la première colonne doit être tokens et la dernière, labels. Entre ces deux colonnes, vous pouvez ajouter des colonnes pour les caractéristiques ajoutées manuellement.

    2. Dans le champ Folder/file, saisissez le chemin d'accès vers les données d'apprentissage.
    3. Laissez la case Die on error cochée.
  2. Dans la vue Advanced settings du composant, cochez la case Custom encoding si vous rencontrez des problèmes lors du traitement des données.
  3. Dans la liste Encoding, sélectionnez l'encodage à utiliser, UTF-8 dans cet exemple.