tStem - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Propriétés du tStem

Famille du composant

Data Quality

 

Fonction

Le tStem standardise des données dans des colonnes à travers un processus de normalisation linguistique, dans lequel les variantes d'un mot sont réduites à leur forme commune.

Objectif

Le tStem permet de standardiser des données dans des colonnes avant d'effectuer des correspondances.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository.

 

 

Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisable dans divers projets et Job designs. Voir également le Guide utilisateur du Studio Talend.

 

Select Algorithm

Définissez un algorithme de lexémisation pour chaque colonne analysée de type String.

Column : liste des colonnes analysées.

Algorithm : Sélectionnez dans la liste le langage de l'algorithme par rapport auquel vous souhaitez vérifier les données des colonnes.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de process du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est un composant intermédiaire. Il requiert des composants d'entrée et de sortie.

Scénario 1 : Générer des radicaux pour une liste de mots anglais

Ce scénario simple décrit un Job à quatre composants lisant une liste de mots anglais d'une colonne d'un fichier délimité, extrayant les radicaux des mots et affichant la liste des mots avec le radical correspondant dans la console de la vue Run.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, un tMap, un tStem et un tLogRow.

  2. Reliez le tFileInputDelimited au tMap à l'aide d'un lien Row > Main.

  3. Reliez le tMap au composant tStem à l'aide d'un lien Row > Main et donnez un nom à la connexion de sortie, out dans cet exemple.

  4. Reliez le tStem au tLogRow à l'aide d'un lien Row > Main.

Configurer les composants

  1. Double-cliquez sur le composant tFileInputDelimited pour ouvrir sa vue Basic settings.

  2. Parcourez votre système jusqu'au fichier d'entrée, configurez les propriétés du composant en respectant la structure du fichier d'entrée. Dans cet exemple, le fichier d'entrée fournit une liste de mots anglais sous différentes formes et ne contient pas d'en-tête. Voici un extrait du fichier.

    computerize
    computerized
    computerizing
    program
    programming
    cooking
    cooked
    cooks
    evaporable
  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema], configurez le schéma d'entrée qui doit contenir une colonne nommée Word dans cet exemple.

    Cliquez sur OK pour fermer la boîte de dialogue.

  4. Double-cliquez sur le composant tMap pour ouvrir l'éditeur de mapping. Le composant est utilisé pour diviser la colonne du flux d'entrée en un flux de données à deux colonnes permettant d'alimenter le composant tStem.

  5. Cliquez deux fois sur le bouton [+] pour ajouter deux colonnes au schéma de sortie et nommez-les respectivement Fullform et Stem. Glissez la colonne Word de la table d'entrée sur la colonne Fullform, puis sur la colonne Stem, dans la table de sortie.

    Cliquez sur OK pour fermer l'éditeur de mapping et propager les modifications au composant suivant.

  6. Double-cliquez sur le tStem pour ouvrir sa vue Basic settings.

  7. Dans la table Select Algorithm, cliquez dans le champ Algorithm de la colonne Stem, qui contiendra les radicaux extraits des données d'entrée et sélectionnez English comme langue pour l'algorithme.

  8. Double-cliquez sur le composant tLogRow pour ouvrir sa vue Basic settings. Sélectionnez l'option Table pour un meilleur affichage des résultats d'exécution du Job.

Exécuter le Job

  1. Appuyez sur les touches Ctrl+S pour sauvegarder votre Job.

  2. Appuyez sur F6 ou cliquez sur le bouton Run de la vue Run pour exécuter le Job.

    La liste des mots lue dans les données d'entrée, ainsi que les radicaux correspondants sont affichés dans la console de la vue Run.

Scénario 2 : Extraire les radicaux de mots anglais d'une colonne spécifique d'une base de données

Ce scénario décrit un Job ayant six composants, effectuant une normalisation linguistique sur les données d'une colonne translation (traduction) et extrayant la partie racine de tous ces mots anglais.

Le but de ce Job est de créer une sorte de dictionnaire des radicaux des mots anglais listés dans la colonne translation. Ce dictionnaire peut être utilisé plus tard, afin de vérifier les nouveaux mots à ajouter à la table sélectionnée. Les radicaux anglais extraits sont écrits dans un fichier de sortie, avec le nombre de leurs occurrences dans la colonne translation.

Dans ce scénario, vous avez déjà stocké les schémas d'entrée principaux dans le Repository. Pour plus d'informations concernant le stockage de métadonnées de schéma dans le Repository, consultez le Guide utilisateur du Studio Talend.

La table d'entrée principale contient huit colonnes : id_key, id_lang, translation, id_status, id_user_trans, id_user_validate, id_editor et date. Vous voulez extraire le radical des mots de la colonne translation.

Construire le Job

  1. Dans la vue Repository, développez les nœuds Metadata - DB Connections où vous avez stocké les schémas d'entrée principaux, et déposez le fichier correspondant dans l'espace de modélisation graphique.

    La boîte de dialogue [Components] s'affiche, avec le composant correspondant sélectionné par défaut.

  2. Cliquez sur OK afin de déposer le composant tMysqlInput dans l'espace de modélisation graphique.

    La table d'entrée utilisée dans ce scénario est appelée translation. Elle se compose de plusieurs colonnes, notamment la colonne translation qui contient les mots anglais dont vous voulez extraire les radicaux.

  3. Glissez un tNormalize, un tFilterRow, un tStem, un tAggregateRow, et un tFileOutputExcel de la Palette dans l'espace de modélisation graphique.

  4. Connectez les composants à l'aide de liens Main, excepté pour la connexion du tFilterRow au tStem, pour laquelle vous utilisez un lien Filter.

Configurer le flux d'entrée

  1. Double-cliquez sur le composant de base de données d'entrée afin d'afficher sa vue Component.

    Les champs des propriétés du tMysqlInput sont automatiquement remplis. Si vous n'avez pas défini votre schéma d'entrée localement dans le Repository, renseignez manuellement les informations après avoir sélectionné Built-in dans les champs Schema et Property Type.

  2. Si nécessaire, modifiez la requête, dans la case Query.

    Dans cet exemple, l'objectif est de ne travailler qu'avec les mots anglais, c'est pour cela que l'id_lang est paramétré sur 1.

Configurer le processus de prétraitement

  1. Double-cliquez sur le tNormalize afin d'afficher sa vue Component et définir ses propriétés.

  2. Dans la liste Column to normalize, sélectionnez translation.

    Cela divisera les chaînes de caractères de la colonne translation en mots.

  3. Dans le champ Item separator, saisissez le séparateur qui délimitera les données de la colonne translation, un caractère espace dans cet exemple.

  4. Double-cliquez sur le tFilterRow afin d'afficher sa vue Component et définir ses propriétés.

  5. Sélectionnez l'opérateur logique que vous souhaitez utiliser afin de combiner le filtrage simple et le mode avancé.

  6. Dans la zone Conditions, cliquez sur le bouton [+], afin d'ajouter une ou plusieurs condition(s) au flux de sortie. Ensuite, dans la colonne correspondante :

    • sélectionnez la colonne d'entrée sur laquelle vous souhaitez effectuer des opérations,

    • sélectionnez dans la liste la fonction dont vous avez besoin,

    • sélectionnez l'opérateur pour lier la colonne d'entrée et la valeur,

    • saisissez la valeur permettant de filtrer le contenu.

      Dans cet exemple, l'objectif est de filtrer tous les mots de la colonne translation ayant moins de trois lettres.

Configurer l'extraction des radicaux

  1. Double-cliquez sur le composant tStem afin d'afficher sa vue Component et définir ses propriétés.

  2. Dans la table Select Algorithm, cliquez sur la cellule Algorithm correspondant à la colonne translation. Sélectionnez ensuite dans la liste la langue de l'algorithme par rapport auquel vous souhaitez vérifier les données de la colonne, English (anglais) dans ce scénario.

Configurer le flux de sortie

  1. Double-cliquez sur le composant tAggregateRow afin d'afficher sa vue Component et définir ses propriétés.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema afin d'ouvrir une boîte de dialogue. Vous pouvez configurer le flux de sortie.

  3. Dans le flux de sortie, à droite de la boîte de dialogue, cliquez sur le bouton [+] pour ajouter autant de colonnes que nécessaire.

    Dans cet exemple, l'objectif est d'avoir deux colonnes de sortie, la colonne translation, et une nouvelle colonne de sortie appelée count.

    Cliquez sur OK pour fermer la boîte de dialogue et passer à l'étape suivante.

  4. Dans la vue Basic settings du tAggregateRow, dans la zone Group by, cliquez sur le bouton [+] afin d'ajouter autant de lignes que nécessaire. Vous pouvez définir les valeurs de groupement.

    • Cliquez dans la ligne Output column et sélectionnez la colonne de sortie qui contiendra les données agrégées, la colonne translation dans cet exemple.

    • Cliquez dans la ligne Input column position et sélectionnez la colonne d'entrée à partir de laquelle vous souhaitez collecter les valeurs à agréger, la colonne translation dans cet exemple.

  5. Dans la zone Operations, cliquez sur le bouton [+] afin d'ajouter des lignes pour les colonnes qui contiendront les données agrégées. Vous pouvez définir les valeurs de calcul.

    • Cliquez dans la ligne Output column et sélectionnez la colonne de destination dans la liste, lea colonne translation dans cet exemple.

    • Cliquez dans la ligne de la colonne Function, et sélectionnez une des opérations listées.

      Dans cet exemple, l'objectif est de compter le nombre de radicaux à lister une fois dans la colonne de sortie.

    • Cliquez dans la ligne Input column position et sélectionnez la colonne d'entrée à partir de laquelle vous souhaitez collecter les valeurs à agréger, la colonne id_key dans cet exemple.

  6. Double-cliquez sur le tFileOutputExcel afin d'afficher sa vue Component et définir ses propriétés.

  7. Renseignez le chemin de destination et définissez les paramètres du fichier selon vos besoins.

Exécuter le Job

  • Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Le fichier Excel de sortie est écrit dans le chemin défini. Ce fichier contient les radicaux des mots anglais dans la colonne translation ainsi que le compte de chaque radical dans la colonne count.

La capture d'écran ci-dessous illustre l'extraction du fichier de sortie.