Recherche de valeurs similaires - 8.0

Guide d'utilisation de Talend Data Preparation

Version
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-03-27

Si vous souhaitez trouver et filtrer du texte similaire, afin de corriger des fautes de frappe, par exemple, vous pouvez utiliser la fonction Match similar text (Rapprocher le texte similaire).

Cette fonction crée une nouvelle colonne avec la valeur true si le modèle correspond ou la valeur false si le modèle ne correspond pas.

Procédure

  1. Sélectionnez la colonne de texte dans laquelle vous souhaitez trouver le texte similaire.
  2. Dans le panneau des fonctions, saisissez Match similar text et cliquez sur le résultat pour ouvrir les options pour la fonction associée.
  3. Renseignez les options selon vos besoins.

    Le champ Reference (Référence) correspond à du texte précédemment saisi et le champ Fuziness (Flou) correspond au nombre de caractères pouvant être ajoutés, supprimés ou qui sont différents de la Reference (Référence). Ce nombre est appelé distance de Levenshtein.

    Notez que le champ Reference (Référence) est sensible à la casse. Dans cet exemple, le texte de Reference (Référence) est new et la distance de Levenshtein (Flou) est de 1.

    Dans cet exemple, la fonction permet de rapprocher des mots comme "few", "now", "net" or "news", mais pas "bow", "nap" ou "led".

  4. Cliquez sur le bouton Submit (Soumettre) pour appliquer la fonction avec les options sélectionnées.

Résultats

Cela crée une nouvelle colonne avec la valeur true si le modèle correspond, ou avec false s'il ne correspond pas.

Pour plus d'informations concernant la distance de Levenshtein, consultez. https://fr.wikipedia.org/wiki/Distance_de_Levenshtein