Configurer les composants - 6.4

Text standardization

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants de standardisation de texte
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants de standardisation de texte
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants de standardisation de texte
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le composant tFileInputDelimited pour ouvrir sa vue Basic settings.
  2. Parcourez votre système jusqu'au fichier d'entrée, configurez les propriétés du composant en respectant la structure du fichier d'entrée. Dans cet exemple, le fichier d'entrée fournit une liste de mots anglais sous différentes formes et ne contient pas d'en-tête. Voici un extrait du fichier.
    computerize
    computerized
    computerizing
    program
    programming
    cooking
    cooked
    cooks
    evaporable
  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema], configurez le schéma d'entrée qui doit contenir une colonne nommée Word dans cet exemple.
    Cliquez sur OK pour fermer la boîte de dialogue.
  4. Double-cliquez sur le composant tMap pour ouvrir l'éditeur de mapping. Le composant est utilisé pour diviser la colonne du flux d'entrée en un flux de données à deux colonnes permettant d'alimenter le composant tStem.
  5. Cliquez deux fois sur le bouton [+] pour ajouter deux colonnes au schéma de sortie et nommez-les respectivement Fullform et Stem. Glissez la colonne Word de la table d'entrée sur la colonne Fullform, puis sur la colonne Stem, dans la table de sortie.
    Cliquez sur OK pour fermer l'éditeur de mapping et propager les modifications au composant suivant.
  6. Double-cliquez sur le tStem pour ouvrir sa vue Basic settings.
  7. Dans la table Select Algorithm, cliquez dans le champ Algorithm de la colonne Stem, qui contiendra les radicaux extraits des données d'entrée et sélectionnez English comme langue pour l'algorithme.
  8. Double-cliquez sur le composant tLogRow pour ouvrir sa vue Basic settings. Sélectionnez l'option Table pour un meilleur affichage des résultats d'exécution du Job.