Configurer les composants - Cloud - 8.0

Index des synonymes

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants d'index de synonymes
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants d'index de synonymes
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants d'index de synonymes
Last publication date
2024-02-21

Procédure

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Basic settings.
  2. Cliquez sur le bouton [...] à côté d'Edit schema pour ouvrir la boîte de dialogue Schema. Ajoutez une seconde colonne, LASTNAME après la colonne FIRSTNAME que vous avez définie lors du scénario précédent.
    Cliquez sur OK pour valider les modifications et fermer la boîte de dialogue.
  3. Dans le champ Content de la zone Mode, ajoutez plus de données liées aux prénoms et noms de famille afin que les données d'entrée se présentent comme suit : Kristof;Toum Chris;Toom Tony;Walker Anton;Correia Jim;Correia Jim;Walker.
  4. Double-cliquez sur le tSynonymSearch pour ouvrir la vue Component.
  5. Cliquez sur Sync columns pour synchroniser les colonnes de ce composant avec celles du composant précédent et cliquez sur Yes pour propager les modifications au composant suivant lorsque cela vous est proposé.
  6. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue Schema et ajoutez deux colonnes au schéma de sortie, matched_fname et matched_lname.
    Ces colonnes vont contenir les entrées de référence en correspondance dans le flux de sortie.
    Cliquez sur OK pour valider les paramètres et acceptez la propagation lorsqu'elle vous est proposée.
  7. Dans le champ Limit of each group, saisissez 10. pour remplacer la limite définie dans le scénario précédent
  8. Sous le tableau Columns to search, cliquez sur le bouton [+] pour ajouter une deuxième ligne et configurez les paramètres comme suit :
    • Dans la colonne Input column, sélectionnez LASTNAME dans la liste déroulante.

    • Dans la colonne Reference output column, sélectionnez matched_lname dans la liste déroulante.

    • Dans la colonne Index path, saisissez entre guillemets le chemin d'accès à l'index de synonymes qui contient les entrées des noms de famille.

      Lorsque vous utilisez le mode Spark Local, utilisez un chemin vers un dossier local :
      • Apache Spark 3.1 et versions précédentes : prefix://file path ou file:///file path.
      • Apache Spark 3.2 et supérieures : file:///file path.
    • Dans la colonne Search mode, sélectionnez Match exact pour les deux colonnes d'entrée. Cela permet de mettre en correspondance le mot d'entrée par rapport au mot exact dans l'index.

    • Dans la colonne Score threshold, saisissez 0.9 pour filtrer les résultats et lister uniquement les termes ayant une haute similarité.

    • Laissez les colonnes Min similarity et Word distance telles qu'elles sont pour les modes Fuzzy et Match partial.

    • Dans la colonne Limit de cette ligne, laissez la valeur par défaut, 5.