Scénario : Faire correspondre des prénoms à un index de référence embarqué - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job comprenant quatre composants dont le but est de faire correspondre la colonne name d'un flux d'entrée à un index de référence.

La sortie de cette mise en correspondance des prénoms est affichée dans la colonne FIRSTNAMEMATCH avec toutes les autres colonnes définies dans le schéma d'entrée du composant tFirstnameMatch.

Déposer et relier les composants

Pour déposer et relier les composants, procédez comme suit :

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : tFixedFlowInput, tFilterColumns, tFirstnameMatch et tLogRow.

  2. Reliez les trois premiers composants à l'aide de liens Row > Main.

  3. Reliez le tFirstnameMatch au tLogRow à l'aide d'un lien Row > Output.

Configurer les données d'entrée

Pour configurer les données d'entrée, effectuez les opérations suivantes :

  1. Double-cliquez sur le composant tFixedFlowInput afin d'afficher sa vue Basic settings et définir ses propriétés.

  2. Dans la liste Schema, sélectionnez Built-In puis cliquez sur le bouton [...] à côté du champ Edit Schema. Une boîte de dialogue s'affiche.

  3. Cliquez sur le bouton [+] pour ajouter autant de lignes que nécessaire pour le schéma d'entrée que vous souhaitez créer à partir de variables internes.

    Dans cet exemple, le flux d'entrée des données est constitué de plusieurs colonnes, y compris une pour les prénoms (name), deux pour les codes pays (iso2 et iso3) et une pour le genre (gender).

  4. Cliquez sur OK pour fermer la boîte de dialogue.

    Les colonnes définies s'affichent dans la zone Mode de l'onglet Basic settings du composant.

  5. Dans la zone Mode, sélectionnez l'option Use Inline Content (delimited file) pour afficher la vue correspondante.

  6. Définissez les séparateurs de lignes et de champs, respectivement dans les champs Row Separator et Field Separator. Ces séparateurs sont utilisés dans votre flux d'entrée.

  7. Dans la zone Content, saisissez les données du flux d'entrée en respectant le schéma que vous avez défini précédemment.

Configurer la mise en correspondance des données

Pour ce faire, sélectionnez les colonnes de données qui vous intéressent et mettez-les en correspondance, à l'aide du tFirstnameMatch.

  1. Cliquez sur le composant tFilterColumns afin d'afficher sa vue Basic settings et définir ses propriétés.

    Le composant tFilterColumns vous permet de construire le schéma de sortie à partir des noms de colonnes du schéma d'entrée.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour afficher une boîte de dialogue dans laquelle vous pouvez définir le schéma de sortie.

  3. Sélectionnez les colonnes name et gender du schéma d'entrée et déplacez-les vers le schéma de sortie.

  4. Cliquez sur OK afin de valider vos modifications et fermer la boîte de dialogue.

  5. Cliquez sur le tFirstnameMatch pour afficher sa vue Basic settings et définir ses propriétés.

  6. Si nécessaire, cliquez sur le bouton [...] à côté du champ Edit schema pour voir les schémas d'entrée et de sortie puis cliquez sur OK pour fermer la boîte de dialogue.

    Note

    Le schéma de sortie de ce composant est le même que le schéma d'entrée, mais avec une colonne fixe supplémentaire : FIRSTNAMEMATCH.

  7. Dans la liste First Names, sélectionnez la colonne contenant les prénoms, name dans cet exemple.

  8. Au besoin, cochez la case Use Gender ou Use Country puis sélectionnez dans la liste la colonne contenant le genre ou le pays, respectivement. Ceci optimisera les performances de votre système et donnera des résultats plus précis.

  9. Si nécessaire, cochez la case Fuzzy Search si vous souhaitez obtenir la meilleure correspondance possible pour les prénoms, si différentes correspondances sont disponibles.

Exécuter le Job

Pour ce faire, cliquez simplement sur le composant tLogRow afin d'afficher sa vue Basic settings et définir ses propriétés ainsi que l'affichage que vous préférez obtenir.

Dans la zone Mode, sélectionnez Table (print values in cells of a table).

Sauvegardez le Job et appuyez sur F6 pour l'exécuter.

Toutes les colonnes de sortie y compris FIRSTNAMEMATCH sont affichées dans la console de la vue Run. La colonne FIRSTNAMEMATCH écrit la meilleure correspondance possible pour les prénoms.