Recherche de valeurs similaires

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.3
2.0
EnrichProdName
Talend Data Preparation
Talend Real-Time Big Data Platform
Talend Big Data
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend ESB
Talend Data Fabric
Talend Data Integration
Talend Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Si vous souhaitez trouver et filtrer du texte similaire, afin de corriger des fautes de frappe, par exemple, vous pouvez utiliser la fonction Match similar text.

Cette fonction crée une nouvelle colonne avec la valeur true si le modèle correspond ou la valeur false si le modèle ne correspond pas.

Procédure

  1. Sélectionnez la colonne de texte dans laquelle vous souhaitez trouver le texte similaire.
  2. Dans le panneau des fonctions, saisissez Match similar text et cliquez sur le résultat pour ouvrir les options pour la fonction associée.
  3. Renseignez les options selon vos besoins.

    Le champ Reference correspond à du texte précédemment saisi et le champ Fuziness correspond au nombre de caractères pouvant être ajoutés, supprimés ou qui sont différents de la Reference. Ce nombre est appelé distance de Levenshtein.

    Notez que le champ Reference est sensible à la casse. Dans cet exemple, le texte de Reference est new et la distance de Levenshtein (Fuziness) est de 1.

    Dans cet exemple, la fonction permet de rapprocher des mots comme "few", "now", "net" or "news", mais pas "bow", "nap" ou "led".

  4. Cliquez sur le bouton Submit pour appliquer la fonction avec les options sélectionnées.

Résultats

Cela crée une nouvelle colonne avec la valeur true si le modèle correspond ou avec false s'il ne correspond pas.

Pour plus d'informations sur la distance de Levenshtein, consultez https://en.wikipedia.org/wiki/Levenshtein_distance.