Scénario 2 : Créer un index des synonymes de noms de personnes en utilisant un tMap - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job à quatre composants permettant de créer un index contenant des noms de personnes et les surnoms correspondants.

Les données source utilisées pour ce scénario sont stockées dans un fichier .csv et se présentent comme suit :

Country;FirstName;Nickname1;Nickname2;Nickname3;Nickname4
France;Anne;Ninon;Annie;Ninette;Ann
France;Bernadette;Nad;Netty;Dadette
France;Albert;Al
France;Alexandre;Alex
France;Alfred-Hubert;Alu
France;Andrew;Andy
France;Anthony;Anton;Tony;Tonio
France;Artus;Artie
France;Benoit;Ben
France;Catherine;Cate;Katherine;Kathryn
France;Charles;Charlie;Charlot;Chuck
France;Christophe;Christian;Chris;Kris;Kristof
France;Christian;Chris

Les données décrivent le pays d'origine des personnes (qui ne doivent pas être insérées dans l'index), leur prénom (entrées de référence) et les surnoms fréquemment utilisés (synonymes).

Les quatre composants utilisés pour ce Job sont :

  • le tFileInputDelimied : ce composant lit les données source et les intègre au tSynonymOutput.

  • le tMap : ce composant est utilisé pour transformer les données source en deux colonnes séparées représentant les prénoms et les surnoms tout en ignorant les données relatives aux pays d'origine.

  • le tSynonymOutput : ce composant crée l'index utilisé pour ce scénario et le peuple avec les synonymes données dans le fichier source.

  • le tLogRow : ce composant liste les données insérées dans l'index nouvellement créé.

Construire le Job

Pour reproduire ce scénario, procédez comme suit :

  1. A partir de la Palette, déposez les composants suivants dans l'espace de modélisation graphique : un tFileInputDelimited, un tMap, un tSynonymOutput et un tLogRow.

    Vous pouvez modifier le nom affiché de chaque composant. Pour plus d'informations, consultez le Guide utilisateur du Studio Talend.

  2. Cliquez-droit sur le composant tFileInputDelimited pour ouvrir le menu contextuel, et connectez-le au composant tMap à l'aide d'un lien Row > Main.

  3. De la même façon, connectez le tMap au tSynonymOutput en utilisant une connexion de type Row > Main.

    Une boîte de dialogue s'affiche, vous invitant à nommer le lien que vous créez.

    Saisissez synonyms, par exemple, puis cliquez sur OK pour valider et fermer cette boîte de dialogue.

  4. Connectez le tSynonymOutput au tLogRow en utilisant une connexion de type Row > Main.

Configurer les composants

Configurer les données d'entrée

  1. Double-cliquez sur le tFileInputDelimited pour ouvrir sa vue Component.

  2. Dans le champ File name/Stream, spécifiez le chemin d'accès au fichier d'entrée.

  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema]. Cliquez six fois sur le bouton [+] pour ajouter six colonnes et nommez-les respectivement Country, FirstName, Nickname1, Nickname2, Nickname3 et Nickname4, selon la structure du fichier d'entrée.

    Cliquez sur OK pour fermer la boîte de dialogue et propager le schéma au composant suivant.

    Vous pouvez également ajouter ce tFileInputDelimited via les métadonnées stockées dans le Repository. Cela vous permet d'utiliser automatiquement la configuration de la métadonnée correspondante. Pour plus d'informations concernant la création et l'utilisation des métadonnées, consultez le Guide utilisateur du Studio Talend.

Configurer la transformation de la structure des données

  1. Double-cliquez sur le tMap pour ouvrir l'éditeur de mapping.

  2. En bas à droite (synonyms) de l'éditeur, cliquez deux fois sur le bouton [+] pour ajouter deux lignes. Nommez-les FirstNames et Nicknames. Ces deux colonnes apparaissent dans le table synonyms, du côté droit de l'éditeur.

  3. En haut à gauche (du côté entrée), sélectionnez la colonne FirstName et déposez-la dans la colonne FirstName du côté sortie (droite).

  4. Dans le champ Expression de la colonne Nicknames, du côté sortie (droite), saisissez DqStringHandling.safeConcat('|',).

  5. En haut à gauche (du côté entrée), sélectionnez les lignes de Nickname1 à Nickname4 et déposez-les dans les colonnes Nicknames. Editez l'expression dans le champ Expression afin d'obtenir : DqStringHandling.safeConcat('|', row1.Nickname1, row1.Nickname2, row1.Nickname3, row1.Nickname4).

  6. Cliquez sur OK pour valider ces modifications et acceptez la propagation que vous propose la boîte de dialogue qui s'affiche.

Configurer la création d'index et la sortie dans la console

  1. Double-cliquez sur le tSynonymOutput pour ouvrir sa vue Component.

  2. Dans le champ Index path, saisissez le chemin d'accès, ou parcourez votre système jusqu'à l'emplacement où vous souhaitez créer l'index.

  3. Dans le champ Operation, sélectionnez l'opération que vous souhaitez effectuer sur l'index créé ainsi que sur les synonymes correspondants. Pour cet exemple, sélectionnez (Delete and) initialize an index.

  4. Dans le champ Entry, sélectionnez la colonne qui recevra et stockera les entrées de référence. Pour ce scénario, il s'agit de la colonne FirstName.

  5. Dans le champ Synonyms, sélectionnez la colonne qui recevra et stockera les synonymes. Pour ce scénario, il s'agit de la colonne Nicknames.

  6. Dans la vue Basic settings du composant tLogRow, sélectionnez l'option Table pour un affichage optimal des résultats d'exécution du Job.

Exécuter le Job

  • Appuyez sur F6 pour exécutez ce Job.

L'index est créé et vous pouvez visualiser son contenu dans la Console de la vue Run, ainsi que le statut des entrées.