Recherche de valeurs similaires - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Si vous souhaitez trouver et filtrer du texte similaire, afin de corriger des fautes de frappe, par exemple, vous pouvez utiliser la fonction Match similar text (Rapprocher le texte similaire).

Cette fonction crée une nouvelle colonne avec la valeur true si le modèle correspond ou la valeur false si le modèle ne correspond pas.

Procédure

  1. Sélectionnez la colonne de texte dans laquelle vous souhaitez trouver le texte similaire.
  2. Dans le panneau des fonctions, saisissez Match similar text et cliquez sur le résultat pour ouvrir les options pour la fonction associée.
  3. Renseignez les options selon vos besoins.

    Le champ Reference (Référence) correspond à du texte précédemment saisi et le champ Fuziness (Flou) correspond au nombre de caractères pouvant être ajoutés, supprimés ou qui sont différents de la Reference (Référence). Ce nombre est appelé distance de Levenshtein.

    Notez que le champ Reference (Référence) est sensible à la casse. Dans cet exemple, le texte de Reference (Référence) est new et la distance de Levenshtein (Flou) est de 1.

    Dans cet exemple, la fonction permet de rapprocher des mots comme "few", "now", "net" or "news", mais pas "bow", "nap" ou "led".

  4. Cliquez sur le bouton Submit (Soumettre) pour appliquer la fonction avec les options sélectionnées.

Résultats

Cela crée une nouvelle colonne avec la valeur true si le modèle correspond, ou avec false s'il ne correspond pas.

Pour plus d'informations concernant la distance de Levenshtein, consultez. https://en.wikipedia.org/wiki/Levenshtein_distance