Recherche de valeurs similaires

Recherche de valeurs similaires - 8.0

Guide d'utilisation de Talend Data Preparation

Version

8.0

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Talend Data Preparation

Content

Qualité et préparation de données > Nettoyage de données

Last publication date

2024-03-27

Si vous souhaitez trouver et filtrer du texte similaire, afin de corriger des fautes de frappe, par exemple, vous pouvez utiliser la fonction Match similar text (Rapprocher le texte similaire).

Cette fonction crée une nouvelle colonne avec la valeur true si le modèle correspond ou la valeur false si le modèle ne correspond pas.

Procédure

Sélectionnez la colonne de texte dans laquelle vous souhaitez trouver le texte similaire.
Dans le panneau des fonctions, saisissez Match similar text et cliquez sur le résultat pour ouvrir les options pour la fonction associée.
Renseignez les options selon vos besoins.

Le champ Reference (Référence) correspond à du texte précédemment saisi et le champ Fuziness (Flou) correspond au nombre de caractères pouvant être ajoutés, supprimés ou qui sont différents de la Reference (Référence). Ce nombre est appelé distance de Levenshtein.

Notez que le champ Reference (Référence) est sensible à la casse. Dans cet exemple, le texte de Reference (Référence) est new et la distance de Levenshtein (Flou) est de 1.

Dans cet exemple, la fonction permet de rapprocher des mots comme "few", "now", "net" or "news", mais pas "bow", "nap" ou "led".
Cliquez sur le bouton Submit (Soumettre) pour appliquer la fonction avec les options sélectionnées.

Résultats

Cela crée une nouvelle colonne avec la valeur true si le modèle correspond, ou avec false s'il ne correspond pas.

Pour plus d'informations concernant la distance de Levenshtein, consultez. https://fr.wikipedia.org/wiki/Distance_de_Levenshtein