Configurer le composant d'entrée - 7.1

Text standardization

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants de standardisation de texte
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants de standardisation de texte
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants de standardisation de texte
EnrichPlatform
Studio Talend

Avant de commencer

Vous avez récupéré le fichier tJapaneseTokenize_standard_scenario.zip.

Procédure

  1. Double-cliquez sur le tFileInputDelimited pour ouvrir sa vue Basic settings dans l'onglet Component.
  2. Dans le champ File name/Stream, saisissez le chemin vers le fichier contenant du texte en japonais à segmenter.
  3. Dans les champs Row Separator et Field Separator, définissez les caractères à utiliser comme séparateurs de lignes et de champs.
  4. Définissez le nombres de lignes dans les champs Header et Footer.
  5. Cliquez sur le bouton Edit schema pour définir les colonnes du jeu de données source, ainsi que leur type.
  6. Cliquez sur le bouton [+] pour ajouter des colonnes au schéma.

    Exemple

  7. Cliquez sur OK pour valider ces changements et acceptez la propagation demandée.
  8. Dans l'onglet Advanced settings du composant tFileInputDelimited, sélectionnez l'encodage correspondant dans la liste Encoding.
    Le fichier inputJapaneseText.txt est encodé en UTF-8.