Scénario 1 : Créer un index des synonymes de noms de villes - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job à trois composants permettant de créer un index des noms de villes standardisés, capable de fournir les références des synonymes des villes utilisés dans les données clients d'une entreprise.

Afin de créer cet index, un fichier source est nécessaire pour fournir le nom des villes et leurs synonymes associés. Pour ce scénario, utilisez un fichier .csv comme suit :

CityName;Synonyms
North Reading;Redding|North Reading|N. Reading|N Reading|N Redding|NR
Young America;YA|Young America
Dedham;Dedham|dedham|deadham
New York;NY|New York

Ce fichier contient deux colonnes :

  • la colonne de gauche est la colonne CityName qui contient le nom des villes standardisés comme données de référence.

  • la colonne de droite est la colonne Synonyms qui contient plusieurs synonymes provenant des données clients de cette entreprise.

Les trois composants utilisés pour ce scénario sont :

  • le tFileInputDelimited : ce composant charge des données à partir d'un fichier source et les entre dans le tSynonymOutput.

  • le tSynonymOutput : ce composant crée l'index utilisé pour ce scénario et le remplit avec les synonymes définis dans le fichier source.

  • le tLogRow : ce composant liste les données qui ont été insérées dans l'index nouvellement créé.

Construire le Job

Pour reproduire ce scénario, procédez comme suit :

  1. A partir de la Palette, déposez les composants suivants dans l'espace de modélisation graphique : un tFileInputDelimited, un tSynonymOutput et un tLogRow.

    Au besoin, vous pouvez changer le nom affiché de chaque composant, comme cela a été fait dans ce scénario pour le composant tFileInputDelimited, renommé CityNames. Pour plus d'informations, consultez le Guide utilisateur du Studio Talend.

  2. Cliquez-droit sur le composant tFileInputDelimited (CityNames) pour ouvrir le menu contextuel.

  3. Dans ce menu, sélectionnez Row > Main.

  4. Cliquez sur le tSynonymOutput pour créer une connexion entre ces deux composants.

  5. Répétez l'opération pour connecter le tSynonymOutput au tLogRow.

Configurer les composants

  1. Double-cliquez sur le composant tFileInputDelimited (CityNames) pour ouvrir sa vue Basic settings.

  2. Dans le champ File name/Stream, spécifiez le chemin d'accès au fichier d'entrée.

  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema], cliquez deux fois sur le bouton [+] pour ajouter deux colonnes et nommez-les respectivement CityName et Synonyms, selon la structure du fichier d'entrée correspondant.

    Cliquez sur OK pour fermer la boîte de dialogue et propager la configuration du schéma au composant suivant.

    Vous pouvez également ajouter ce tFileInputDelimited via les métadonnées stockées dans le Repository. Cela vous permet d'utiliser automatiquement la configuration de la métadonnée correspondante. Pour plus d'informations concernant la création et l'utilisation des métadonnées, consultez le Guide utilisateur du Studio Talend.

  4. Double-cliquez sur le composant tSynonymOutput pour ouvrir sa vue Basic settings.

  5. Dans le champ Index path, saisissez le chemin d'accès, ou parcourez votre répertoire et sélectionnez l'emplacement où vous souhaitez créer l'index.

  6. Dans le champ Operation, sélectionnez l'opération à effectuer sur l'index créé ainsi que sur les synonymes associés. Pour ce scénario, sélectionnez (Delete and) initialize an index.

  7. Dans le champ Entry, sélectionnez la colonne à utiliser pour recevoir et stocker les données de référence standardisées. Dans le fichier source utilisé pour ce scénario, sélectionnez la colonne CityName qui contient les noms de villes standards.

  8. Dans le champ Synonyms, sélectionnez la colonne à utiliser pour recevoir et stocker les synonymes. Pour ce scénario, sélectionnez Synonyms.

  9. Dans la vue Basic settings du composant tLogRow, sélectionnez l'option Table pour un affichage optimal des résultats d'exécution du Job.

Exécuter le Job

  • Appuyez sur F6 pour exécuter ce Job.

Un index est créé dans le répertoire spécifié et le nom des villes standardisés ainsi que leurs synonymes sont insérés dans l'index. Ces entrées, avec leur statut, sont affichés dans la console de la vue Run.