tSynonymOutput - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Propriétés du tSynonymOutput

Famille du composant

Data Quality

 

Fonction

Le composant tSynonymOutput crée un index de Lucene et le remplit avec les entrées et les synonymes qu'il reçoit.

Pour plus d'informations concernant l'accès et la gestion des mots et des entrées de référence (documents) d'un synonyme existant, à l'aide de l'éditeur d'index des synonymes, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations concernant les index de synonymes disponibles, consultez l'annexe concernant les dictionnaires des synonymes de données dans le Guide utilisateur du Studio Talend.

Note

Le calcul de similarité des synonymes est amélioré en version 5.1 du Studio Talend. Si vos index ont été créés avec une version 5.0 ou antérieure et si vous devez les gérer à l'aide de cette méthode de calcul améliorée, vous devez mettre à jour ces index en exécutant le fichier IndexMigrator.jar téléchargeable à l'adresse : http://talendforge.org/svn/top/trunk/org.talend.dataquality.standardization.migration/dist/IndexMigrator.jar. La commande à utiliser pour exécuter ce fichier jar est

java -jar IndexMigrator.jar <inputPath> <outputPath(optional)> 

(où inputPath est le chemin d'entrée des jars à migrer et outputPath(optional) est l'emplacement de sortie facultatif des jars migrés).

Objectif

Le tSynonymOutput crée des index de synonymes auxquels certains composants comme le tStandardizeRow ou le tSynonymSearch peuvent renvoyer lors du traitement des données.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository.

 

 

Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisable dans divers projets et Job designs. Voir également le Guide utilisateur du Studio Talend.

 

Index path

Saisissez le chemin d'accès, ou parcourez votre système et sélectionnez l'emplacement où vous souhaitez créer et stocker l'index de synonymes. Si le répertoire spécifié n'existe pas, le composant va le créer.

 

Operations

Sélectionnez l'opération d'index à effectuer dans le dossier spécifié dans le champ Index path.

(Delete and) initialize an index : cette opération crée un nouvel index et le remplit avec les entrées et les synonymes correspondants. Si un index existe déjà, supprimez-le avant d'en créer un nouveau.

Insert new documents : cette opération insère les nouvelles entrées dans l'index existant. Les synonymes en doublon n'y sont pas insérés.

Update existing documents and insert if not existing : cette opération met à jour les synonymes existants et ajoute les nouveaux synonymes dans l'index.

Delete existing documents : cette opération supprime les documents existants dans l'index.

 

Entry

Sélectionnez la colonne que vous souhaitez insérer pour créer les entrées de l'index.

 

Synonyms

Sélectionnez la colonne que vous souhaitez insérer pour créer les synonymes correspondants aux différentes entrées d'index.

 

Synonym separator

Renseignez le séparateur à utiliser pour séparer les synonymes de chaque entrée d'index. Par défaut, ce séparateur est |.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de process du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Connections

Liens de sortie (de ce composant à un autre) :

Row : Main; Reject

Trigger : Run if; On Component Ok; On Component Error.

Liens d'entrée (d'un autre composant à celui-ci) :

Row : Main; Reject

Pour plus d'informations concernant les connexions, consultez le Guide utilisateur de Studio Talend.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant requiert des données d'entrée provenant du composant précédent pour créer ou mettre à jour des index.

Scénario 1 : Créer un index des synonymes de noms de villes

Ce scénario décrit un Job à trois composants permettant de créer un index des noms de villes standardisés, capable de fournir les références des synonymes des villes utilisés dans les données clients d'une entreprise.

Afin de créer cet index, un fichier source est nécessaire pour fournir le nom des villes et leurs synonymes associés. Pour ce scénario, utilisez un fichier .csv comme suit :

CityName;Synonyms
North Reading;Redding|North Reading|N. Reading|N Reading|N Redding|NR
Young America;YA|Young America
Dedham;Dedham|dedham|deadham
New York;NY|New York

Ce fichier contient deux colonnes :

  • la colonne de gauche est la colonne CityName qui contient le nom des villes standardisés comme données de référence.

  • la colonne de droite est la colonne Synonyms qui contient plusieurs synonymes provenant des données clients de cette entreprise.

Les trois composants utilisés pour ce scénario sont :

  • le tFileInputDelimited : ce composant charge des données à partir d'un fichier source et les entre dans le tSynonymOutput.

  • le tSynonymOutput : ce composant crée l'index utilisé pour ce scénario et le remplit avec les synonymes définis dans le fichier source.

  • le tLogRow : ce composant liste les données qui ont été insérées dans l'index nouvellement créé.

Construire le Job

Pour reproduire ce scénario, procédez comme suit :

  1. A partir de la Palette, déposez les composants suivants dans l'espace de modélisation graphique : un tFileInputDelimited, un tSynonymOutput et un tLogRow.

    Au besoin, vous pouvez changer le nom affiché de chaque composant, comme cela a été fait dans ce scénario pour le composant tFileInputDelimited, renommé CityNames. Pour plus d'informations, consultez le Guide utilisateur du Studio Talend.

  2. Cliquez-droit sur le composant tFileInputDelimited (CityNames) pour ouvrir le menu contextuel.

  3. Dans ce menu, sélectionnez Row > Main.

  4. Cliquez sur le tSynonymOutput pour créer une connexion entre ces deux composants.

  5. Répétez l'opération pour connecter le tSynonymOutput au tLogRow.

Configurer les composants

  1. Double-cliquez sur le composant tFileInputDelimited (CityNames) pour ouvrir sa vue Basic settings.

  2. Dans le champ File name/Stream, spécifiez le chemin d'accès au fichier d'entrée.

  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema], cliquez deux fois sur le bouton [+] pour ajouter deux colonnes et nommez-les respectivement CityName et Synonyms, selon la structure du fichier d'entrée correspondant.

    Cliquez sur OK pour fermer la boîte de dialogue et propager la configuration du schéma au composant suivant.

    Vous pouvez également ajouter ce tFileInputDelimited via les métadonnées stockées dans le Repository. Cela vous permet d'utiliser automatiquement la configuration de la métadonnée correspondante. Pour plus d'informations concernant la création et l'utilisation des métadonnées, consultez le Guide utilisateur du Studio Talend.

  4. Double-cliquez sur le composant tSynonymOutput pour ouvrir sa vue Basic settings.

  5. Dans le champ Index path, saisissez le chemin d'accès, ou parcourez votre répertoire et sélectionnez l'emplacement où vous souhaitez créer l'index.

  6. Dans le champ Operation, sélectionnez l'opération à effectuer sur l'index créé ainsi que sur les synonymes associés. Pour ce scénario, sélectionnez (Delete and) initialize an index.

  7. Dans le champ Entry, sélectionnez la colonne à utiliser pour recevoir et stocker les données de référence standardisées. Dans le fichier source utilisé pour ce scénario, sélectionnez la colonne CityName qui contient les noms de villes standards.

  8. Dans le champ Synonyms, sélectionnez la colonne à utiliser pour recevoir et stocker les synonymes. Pour ce scénario, sélectionnez Synonyms.

  9. Dans la vue Basic settings du composant tLogRow, sélectionnez l'option Table pour un affichage optimal des résultats d'exécution du Job.

Exécuter le Job

  • Appuyez sur F6 pour exécuter ce Job.

Un index est créé dans le répertoire spécifié et le nom des villes standardisés ainsi que leurs synonymes sont insérés dans l'index. Ces entrées, avec leur statut, sont affichés dans la console de la vue Run.

Scénario 2 : Créer un index des synonymes de noms de personnes en utilisant un tMap

Ce scénario décrit un Job à quatre composants permettant de créer un index contenant des noms de personnes et les surnoms correspondants.

Les données source utilisées pour ce scénario sont stockées dans un fichier .csv et se présentent comme suit :

Country;FirstName;Nickname1;Nickname2;Nickname3;Nickname4
France;Anne;Ninon;Annie;Ninette;Ann
France;Bernadette;Nad;Netty;Dadette
France;Albert;Al
France;Alexandre;Alex
France;Alfred-Hubert;Alu
France;Andrew;Andy
France;Anthony;Anton;Tony;Tonio
France;Artus;Artie
France;Benoit;Ben
France;Catherine;Cate;Katherine;Kathryn
France;Charles;Charlie;Charlot;Chuck
France;Christophe;Christian;Chris;Kris;Kristof
France;Christian;Chris

Les données décrivent le pays d'origine des personnes (qui ne doivent pas être insérées dans l'index), leur prénom (entrées de référence) et les surnoms fréquemment utilisés (synonymes).

Les quatre composants utilisés pour ce Job sont :

  • le tFileInputDelimied : ce composant lit les données source et les intègre au tSynonymOutput.

  • le tMap : ce composant est utilisé pour transformer les données source en deux colonnes séparées représentant les prénoms et les surnoms tout en ignorant les données relatives aux pays d'origine.

  • le tSynonymOutput : ce composant crée l'index utilisé pour ce scénario et le peuple avec les synonymes données dans le fichier source.

  • le tLogRow : ce composant liste les données insérées dans l'index nouvellement créé.

Construire le Job

Pour reproduire ce scénario, procédez comme suit :

  1. A partir de la Palette, déposez les composants suivants dans l'espace de modélisation graphique : un tFileInputDelimited, un tMap, un tSynonymOutput et un tLogRow.

    Vous pouvez modifier le nom affiché de chaque composant. Pour plus d'informations, consultez le Guide utilisateur du Studio Talend.

  2. Cliquez-droit sur le composant tFileInputDelimited pour ouvrir le menu contextuel, et connectez-le au composant tMap à l'aide d'un lien Row > Main.

  3. De la même façon, connectez le tMap au tSynonymOutput en utilisant une connexion de type Row > Main.

    Une boîte de dialogue s'affiche, vous invitant à nommer le lien que vous créez.

    Saisissez synonyms, par exemple, puis cliquez sur OK pour valider et fermer cette boîte de dialogue.

  4. Connectez le tSynonymOutput au tLogRow en utilisant une connexion de type Row > Main.

Configurer les composants

Configurer les données d'entrée

  1. Double-cliquez sur le tFileInputDelimited pour ouvrir sa vue Component.

  2. Dans le champ File name/Stream, spécifiez le chemin d'accès au fichier d'entrée.

  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema]. Cliquez six fois sur le bouton [+] pour ajouter six colonnes et nommez-les respectivement Country, FirstName, Nickname1, Nickname2, Nickname3 et Nickname4, selon la structure du fichier d'entrée.

    Cliquez sur OK pour fermer la boîte de dialogue et propager le schéma au composant suivant.

    Vous pouvez également ajouter ce tFileInputDelimited via les métadonnées stockées dans le Repository. Cela vous permet d'utiliser automatiquement la configuration de la métadonnée correspondante. Pour plus d'informations concernant la création et l'utilisation des métadonnées, consultez le Guide utilisateur du Studio Talend.

Configurer la transformation de la structure des données

  1. Double-cliquez sur le tMap pour ouvrir l'éditeur de mapping.

  2. En bas à droite (synonyms) de l'éditeur, cliquez deux fois sur le bouton [+] pour ajouter deux lignes. Nommez-les FirstNames et Nicknames. Ces deux colonnes apparaissent dans le table synonyms, du côté droit de l'éditeur.

  3. En haut à gauche (du côté entrée), sélectionnez la colonne FirstName et déposez-la dans la colonne FirstName du côté sortie (droite).

  4. Dans le champ Expression de la colonne Nicknames, du côté sortie (droite), saisissez DqStringHandling.safeConcat('|',).

  5. En haut à gauche (du côté entrée), sélectionnez les lignes de Nickname1 à Nickname4 et déposez-les dans les colonnes Nicknames. Editez l'expression dans le champ Expression afin d'obtenir : DqStringHandling.safeConcat('|', row1.Nickname1, row1.Nickname2, row1.Nickname3, row1.Nickname4).

  6. Cliquez sur OK pour valider ces modifications et acceptez la propagation que vous propose la boîte de dialogue qui s'affiche.

Configurer la création d'index et la sortie dans la console

  1. Double-cliquez sur le tSynonymOutput pour ouvrir sa vue Component.

  2. Dans le champ Index path, saisissez le chemin d'accès, ou parcourez votre système jusqu'à l'emplacement où vous souhaitez créer l'index.

  3. Dans le champ Operation, sélectionnez l'opération que vous souhaitez effectuer sur l'index créé ainsi que sur les synonymes correspondants. Pour cet exemple, sélectionnez (Delete and) initialize an index.

  4. Dans le champ Entry, sélectionnez la colonne qui recevra et stockera les entrées de référence. Pour ce scénario, il s'agit de la colonne FirstName.

  5. Dans le champ Synonyms, sélectionnez la colonne qui recevra et stockera les synonymes. Pour ce scénario, il s'agit de la colonne Nicknames.

  6. Dans la vue Basic settings du composant tLogRow, sélectionnez l'option Table pour un affichage optimal des résultats d'exécution du Job.

Exécuter le Job

  • Appuyez sur F6 pour exécutez ce Job.

L'index est créé et vous pouvez visualiser son contenu dans la Console de la vue Run, ainsi que le statut des entrées.