Scénario 2 : Rechercher dans un index donné les entrées de référence qui correspondent à deux colonnes d'entrée - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Pour ce scénario, utilisez le Job précédent en incluant de légères modifications afin de chercher des données d'entrée provenant de deux colonnes dans deux index de synonymes.

Outre l'index utilisé précédemment, un autre index est utilisé. Il contient les noms de famille, par exemple CorreiaCorriaToumToomtoomWalkerWaker.

Pour reproduire ce scénario, ouvrez le Job créé dans le scénario précédent et procédez comme suit.

Configurer les composants

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Component.

  2. Cliquez sur le bouton [...] à côté d'Edit schema pour ouvrir l'éditeur de schéma. Ajoutez une seconde colonne, LASTNAME après la colonne FIRSTNAME que vous avez définie lors du scénario précédent.

    Cliquez sur OK pour valider les modifications et fermer la boîte de dialogue.

  3. Dans le champ Content de la zone Mode, ajoutez plus de données liées aux prénoms et noms de famille afin que les données d'entrée se présentent comme suit :

    Kristof;Toum
    Chris;Toom
    Tony;Walker
    Anton;Correia
    Jim;Correia
    Jim;Walker
  4. Double-cliquez sur le tSynonymSearch pour ouvrir la vue Component.

  5. Cliquez sur Sync columns pour synchroniser les colonnes de ce composant avec celles du composant précédent et cliquez sur Yes pour propager les modifications au composant suivant lorsque cela vous est proposé.

  6. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema] et ajoutez deux colonnes au schéma de sortie, matched_fname et matched_lname. Ces colonnes vont contenir les entrées de référence en correspondance dans le flux de sortie.

    Cliquez sur OK pour valider les paramètres et acceptez la propagation lorsqu'elle vous est proposée.

  7. Dans le champ Limit of each group, saisissez 10. pour remplacer la limite définie dans le scénario précédent

  8. Sous le tableau Columns to search, cliquez sur le bouton [+] pour ajouter une deuxième ligne et configurez les paramètres comme suit :

    • Dans la colonne Input column, sélectionnez LASTNAME dans la liste déroulante.

    • Dans la colonne Reference output column, sélectionnez matched_lname dans la liste déroulante.

    • Dans la colonne Index path, saisissez entre guillemets le chemin d'accès à l'index de synonymes qui contient les entrées des noms de famille.

    • Dans la colonne Search mode, sélectionnez Match exact pour les deux colonnes d'entrée. Cela permet de mettre en correspondance le mot d'entrée par rapport au mot exact dans l'index.

    • Dans la colonne Score threshold, saisissez 0.9 pour filtrer les résultats et lister uniquement les termes ayant une haute similarité.

    • Laissez les colonnes Min similarity et Word distance telles qu'elles sont pour les modes Fuzzy et Match partial.

    • Dans la colonne Limit de cette ligne, laissez la valeur par défaut, 5.

Exécuter le Job

  • Appuyez sur F6 pour exécuter ce Job.

Le résultat de l'exécution se présente comme suit dans la console de la vue Run.

A partir de ce résultat, en analysant la donnée d'entrée Chris Toom par exemple, vous pouvez voir que :

  • cet enregistrement est reconnu comme le groupe 2 ayant une taille de 3, ce qui signifie que 3 paires de correspondances exactes sont trouvées dans les deux index de synonymes en utilisation. Les correspondances exactes pour les prénoms sont Christian, Christiaan et Christoffel. La correspondance exacte pour le nom de famille est toom trois fois.

  • les colonnes SCORES contiennent deux sous-colonnes.

    Ces sous-colonnes présentent les scores de mise en correspondance par rapport aux colonnes de référence, respectivement matched_fname et matched_lname. Chaque figure listée dans la colonne SCORE est égale à la somme des deux figures de la même ligne dans les sous-colonnes de la colonne SCORES.