Créer un index des synonymes de noms de personnes en utilisant un tMap - 7.1

Synonym index

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants d'index de synonymes
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants d'index de synonymes
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants d'index de synonymes
EnrichPlatform
Studio Talend

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Ce scénario décrit un Job à quatre composants permettant de créer un index contenant des noms de personnes et les surnoms correspondants.

Les données source utilisées pour ce scénario sont stockées dans un fichier .csv et se présentent comme suit :

Country;FirstName;Nickname1;Nickname2;Nickname3;Nickname4
France;Anne;Ninon;Annie;Ninette;Ann
France;Bernadette;Nad;Netty;Dadette
France;Albert;Al
France;Alexandre;Alex
France;Alfred-Hubert;Alu
France;Andrew;Andy
France;Anthony;Anton;Tony;Tonio
France;Artus;Artie
France;Benoit;Ben
France;Catherine;Cate;Katherine;Kathryn
France;Charles;Charlie;Charlot;Chuck
France;Christophe;Christian;Chris;Kris;Kristof
France;Christian;Chris

Les données décrivent le pays d'origine des personnes (qui ne doivent pas être insérées dans l'index), leur prénom (entrées de référence) et les surnoms fréquemment utilisés (synonymes).

Les quatre composants utilisés pour ce Job sont :

  • un tFileInputDelimied : lit les données source et les intègre au tSynonymOutput,

  • un tMap : utilisé pour transformer les données source en deux colonnes séparées représentant les prénoms et les surnoms tout en ignorant les données relatives aux pays d'origine,

  • un tSynonymOutput : crée l'index utilisé pour ce scénario et le peuple avec les synonymes données dans le fichier source,

  • un tLogRow : liste les données insérées dans l'index nouvellement créé.