Configurer les composants - Cloud - 8.0

Index des synonymes

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants d'index de synonymes
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants d'index de synonymes
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation > Composants d'index de synonymes
Last publication date
2024-02-21

Procédure

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Basic settings.
  2. À côté du champ Schema, cliquez sur le bouton Edit schema pour ouvrir la boîte de dialogue Schema. Ajoutez une colonne et nommez-la FIRSTNAME. Cliquez sur OK pour valider les modifications et fermer la boîte de dialogue.
  3. Dans la zone Mode, sélectionnez l'option Use Inline Content (delimited file) et saisissez les noms suivants dans le champ Content :
    Kristof
    Chris
    Tony
    Anton
  4. Double-cliquez sur le tSynonymSearch pour ouvrir la vue Basic settings.
  5. Cliquez sur Sync columns pour ajouter les colonnes du schéma du composant précédent aux colonnes du schéma par défaut du tSynonymSearch.
    Dans la boîte de dialogue qui s'ouvre, cliquez sur Yes pour propager les modifications au composant suivant.
  6. Cliquez sur le bouton [...] à côté d'Edit schema pour la boîte de dialogue Schema et ajoutez une colonne au schéma de sortie, matched_fname.
    Cette colonne va contenir les entrées de référence en correspondance dans le flux de sortie.
    Cliquez sur OK pour valider les paramètres et acceptez la propagation lorsqu'elle vous est proposée.
  7. Dans le champ Limit of each group, saisissez 5 pour remplacer la valeur par défaut.
  8. Sous le tableau Column to search, cliquez sur le bouton [+] pour ajouter une ligne et définissez les paramètres comme suit :
    • Dans la colonne Input column, sélectionnez FIRSTNAME dans la liste des colonnes d'entrée.

    • Dans la colonne Reference output column, sélectionnez matched_fname dans la liste des colonnes de sortie.

    • Dans la colonne Index path, saisissez entre guillemets doubles le chemin d'accès à l'index de synonymes à utiliser.

      Lorsque vous utilisez le mode Spark Local, utilisez un chemin vers un dossier local :
      • Apache Spark 3.1 et versions précédentes : prefix://file path ou file:///file path.
      • Apache Spark 3.2 et supérieures : file:///file path.
    • Dans la colonne Search mode, sélectionnez Match all fuzzy. Cela va mettre en correspondance chaque mot de la chaîne de caractères d'entrée par rapport au mot similaire de la chaîne de caractères de l'index.

    • Dans la colonne Score threshold, saisissez 0.9 pour filtrer les résultats et lister uniquement les termes ayant une haute similarité.

    • Dans la colonne Max edits, sélectionnez 1 comme distance de modification autorisée à utiliser.

      Avec une distance maximale de modification de 1, vous pouvez effectuer une seule insertion, suppression ou substitution. Tout terme à l'intérieur de cette distance depuis les données d'entrée est mis en correspondance.

    • Laissez la colonne Word distance telle qu'elle est pour le mode Match partial.

    • Dans la colonne Limit, laissez la valeur par défaut, 5.

  9. Dans la vue Basic settings du tLogRow, sélectionnez l'option Table pour un meilleur affichage des résultats d'exécution du Job.