Scénario 1 : Générer des radicaux pour une liste de mots anglais - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario simple décrit un Job à quatre composants lisant une liste de mots anglais d'une colonne d'un fichier délimité, extrayant les radicaux des mots et affichant la liste des mots avec le radical correspondant dans la console de la vue Run.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, un tMap, un tStem et un tLogRow.

  2. Reliez le tFileInputDelimited au tMap à l'aide d'un lien Row > Main.

  3. Reliez le tMap au composant tStem à l'aide d'un lien Row > Main et donnez un nom à la connexion de sortie, out dans cet exemple.

  4. Reliez le tStem au tLogRow à l'aide d'un lien Row > Main.

Configurer les composants

  1. Double-cliquez sur le composant tFileInputDelimited pour ouvrir sa vue Basic settings.

  2. Parcourez votre système jusqu'au fichier d'entrée, configurez les propriétés du composant en respectant la structure du fichier d'entrée. Dans cet exemple, le fichier d'entrée fournit une liste de mots anglais sous différentes formes et ne contient pas d'en-tête. Voici un extrait du fichier.

    computerize
    computerized
    computerizing
    program
    programming
    cooking
    cooked
    cooks
    evaporable
  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema], configurez le schéma d'entrée qui doit contenir une colonne nommée Word dans cet exemple.

    Cliquez sur OK pour fermer la boîte de dialogue.

  4. Double-cliquez sur le composant tMap pour ouvrir l'éditeur de mapping. Le composant est utilisé pour diviser la colonne du flux d'entrée en un flux de données à deux colonnes permettant d'alimenter le composant tStem.

  5. Cliquez deux fois sur le bouton [+] pour ajouter deux colonnes au schéma de sortie et nommez-les respectivement Fullform et Stem. Glissez la colonne Word de la table d'entrée sur la colonne Fullform, puis sur la colonne Stem, dans la table de sortie.

    Cliquez sur OK pour fermer l'éditeur de mapping et propager les modifications au composant suivant.

  6. Double-cliquez sur le tStem pour ouvrir sa vue Basic settings.

  7. Dans la table Select Algorithm, cliquez dans le champ Algorithm de la colonne Stem, qui contiendra les radicaux extraits des données d'entrée et sélectionnez English comme langue pour l'algorithme.

  8. Double-cliquez sur le composant tLogRow pour ouvrir sa vue Basic settings. Sélectionnez l'option Table pour un meilleur affichage des résultats d'exécution du Job.

Exécuter le Job

  1. Appuyez sur les touches Ctrl+S pour sauvegarder votre Job.

  2. Appuyez sur F6 ou cliquez sur le bouton Run de la vue Run pour exécuter le Job.

    La liste des mots lue dans les données d'entrée, ainsi que les radicaux correspondants sont affichés dans la console de la vue Run.