Configurer le composant d'entrée - 6.5

Natural Language Processing

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Traitement automatique du langage naturel
Gouvernance de données > Systèmes tiers > Traitement automatique du langage naturel
Qualité et préparation de données > Systèmes tiers > Traitement automatique du langage naturel
EnrichPlatform
Studio Talend
Le composant tFileInputXML est utilisé pour charger le texte à prétraiter.

Procédure

  1. Double-cliquez sur le tFileInputXML pour afficher sa vue Basic settings et définissez les propriétés du composant.
    1. Cliquez sur le bouton [...] à côté du champ Edit schema pour ajouter les colonnes contenant les données d'entrée.
    2. Dans le champ File name, spécifiez le chemin d'accès au fichier à traiter.
    3. Dans le champ Element to extract, saisissez "row".
    4. Dans le champ Loop XPath query, saisissez la requête XPath entre guillemets doubles pour spécifier sur quel nœud la boucle doit se baser.
    5. Dans la colonne XPath query de la table Mapping, saisissez les requêtes XPath entre guillemets doubles pour spécifier les nœuds contenant les données souhaitées.
  2. Dans la vue Advanced settings du composant, cochez la case Custom encoding si vous rencontrez des problèmes lors du traitement des données.
  3. Dans la liste Encoding, sélectionnez l'encodage à utiliser, UTF-8 dans cet exemple.