Scénario 2 : Extraire les radicaux de mots anglais d'une colonne spécifique d'une base de données - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job ayant six composants, effectuant une normalisation linguistique sur les données d'une colonne translation (traduction) et extrayant la partie racine de tous ces mots anglais.

Le but de ce Job est de créer une sorte de dictionnaire des radicaux des mots anglais listés dans la colonne translation. Ce dictionnaire peut être utilisé plus tard, afin de vérifier les nouveaux mots à ajouter à la table sélectionnée. Les radicaux anglais extraits sont écrits dans un fichier de sortie, avec le nombre de leurs occurrences dans la colonne translation.

Dans ce scénario, vous avez déjà stocké les schémas d'entrée principaux dans le Repository. Pour plus d'informations concernant le stockage de métadonnées de schéma dans le Repository, consultez le Guide utilisateur du Studio Talend.

La table d'entrée principale contient huit colonnes : id_key, id_lang, translation, id_status, id_user_trans, id_user_validate, id_editor et date. Vous voulez extraire le radical des mots de la colonne translation.

Construire le Job

  1. Dans la vue Repository, développez les nœuds Metadata - DB Connections où vous avez stocké les schémas d'entrée principaux, et déposez le fichier correspondant dans l'espace de modélisation graphique.

    La boîte de dialogue [Components] s'affiche, avec le composant correspondant sélectionné par défaut.

  2. Cliquez sur OK afin de déposer le composant tMysqlInput dans l'espace de modélisation graphique.

    La table d'entrée utilisée dans ce scénario est appelée translation. Elle se compose de plusieurs colonnes, notamment la colonne translation qui contient les mots anglais dont vous voulez extraire les radicaux.

  3. Glissez un tNormalize, un tFilterRow, un tStem, un tAggregateRow, et un tFileOutputExcel de la Palette dans l'espace de modélisation graphique.

  4. Connectez les composants à l'aide de liens Main, excepté pour la connexion du tFilterRow au tStem, pour laquelle vous utilisez un lien Filter.

Configurer le flux d'entrée

  1. Double-cliquez sur le composant de base de données d'entrée afin d'afficher sa vue Component.

    Les champs des propriétés du tMysqlInput sont automatiquement remplis. Si vous n'avez pas défini votre schéma d'entrée localement dans le Repository, renseignez manuellement les informations après avoir sélectionné Built-in dans les champs Schema et Property Type.

  2. Si nécessaire, modifiez la requête, dans la case Query.

    Dans cet exemple, l'objectif est de ne travailler qu'avec les mots anglais, c'est pour cela que l'id_lang est paramétré sur 1.

Configurer le processus de prétraitement

  1. Double-cliquez sur le tNormalize afin d'afficher sa vue Component et définir ses propriétés.

  2. Dans la liste Column to normalize, sélectionnez translation.

    Cela divisera les chaînes de caractères de la colonne translation en mots.

  3. Dans le champ Item separator, saisissez le séparateur qui délimitera les données de la colonne translation, un caractère espace dans cet exemple.

  4. Double-cliquez sur le tFilterRow afin d'afficher sa vue Component et définir ses propriétés.

  5. Sélectionnez l'opérateur logique que vous souhaitez utiliser afin de combiner le filtrage simple et le mode avancé.

  6. Dans la zone Conditions, cliquez sur le bouton [+], afin d'ajouter une ou plusieurs condition(s) au flux de sortie. Ensuite, dans la colonne correspondante :

    • sélectionnez la colonne d'entrée sur laquelle vous souhaitez effectuer des opérations,

    • sélectionnez dans la liste la fonction dont vous avez besoin,

    • sélectionnez l'opérateur pour lier la colonne d'entrée et la valeur,

    • saisissez la valeur permettant de filtrer le contenu.

      Dans cet exemple, l'objectif est de filtrer tous les mots de la colonne translation ayant moins de trois lettres.

Configurer l'extraction des radicaux

  1. Double-cliquez sur le composant tStem afin d'afficher sa vue Component et définir ses propriétés.

  2. Dans la table Select Algorithm, cliquez sur la cellule Algorithm correspondant à la colonne translation. Sélectionnez ensuite dans la liste la langue de l'algorithme par rapport auquel vous souhaitez vérifier les données de la colonne, English (anglais) dans ce scénario.

Configurer le flux de sortie

  1. Double-cliquez sur le composant tAggregateRow afin d'afficher sa vue Component et définir ses propriétés.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema afin d'ouvrir une boîte de dialogue. Vous pouvez configurer le flux de sortie.

  3. Dans le flux de sortie, à droite de la boîte de dialogue, cliquez sur le bouton [+] pour ajouter autant de colonnes que nécessaire.

    Dans cet exemple, l'objectif est d'avoir deux colonnes de sortie, la colonne translation, et une nouvelle colonne de sortie appelée count.

    Cliquez sur OK pour fermer la boîte de dialogue et passer à l'étape suivante.

  4. Dans la vue Basic settings du tAggregateRow, dans la zone Group by, cliquez sur le bouton [+] afin d'ajouter autant de lignes que nécessaire. Vous pouvez définir les valeurs de groupement.

    • Cliquez dans la ligne Output column et sélectionnez la colonne de sortie qui contiendra les données agrégées, la colonne translation dans cet exemple.

    • Cliquez dans la ligne Input column position et sélectionnez la colonne d'entrée à partir de laquelle vous souhaitez collecter les valeurs à agréger, la colonne translation dans cet exemple.

  5. Dans la zone Operations, cliquez sur le bouton [+] afin d'ajouter des lignes pour les colonnes qui contiendront les données agrégées. Vous pouvez définir les valeurs de calcul.

    • Cliquez dans la ligne Output column et sélectionnez la colonne de destination dans la liste, lea colonne translation dans cet exemple.

    • Cliquez dans la ligne de la colonne Function, et sélectionnez une des opérations listées.

      Dans cet exemple, l'objectif est de compter le nombre de radicaux à lister une fois dans la colonne de sortie.

    • Cliquez dans la ligne Input column position et sélectionnez la colonne d'entrée à partir de laquelle vous souhaitez collecter les valeurs à agréger, la colonne id_key dans cet exemple.

  6. Double-cliquez sur le tFileOutputExcel afin d'afficher sa vue Component et définir ses propriétés.

  7. Renseignez le chemin de destination et définissez les paramètres du fichier selon vos besoins.

Exécuter le Job

  • Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Le fichier Excel de sortie est écrit dans le chemin défini. Ce fichier contient les radicaux des mots anglais dans la colonne translation ainsi que le compte de chaque radical dans la colonne count.

La capture d'écran ci-dessous illustre l'extraction du fichier de sortie.