Recherche et regroupement de contenu similaire - Cloud

Guide de prise en main de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-03-06

La recherche et le regroupement de texte similaires peuvent être utilisés pour harmoniser du contenu avec de légères variations.

Remarque : La fonction Find and group similar text ne supporte pas les caractères asiatiques.

Le fichier customers.xlsx comporte des informations sur l'activité professionnelle de vos clients. Certaines de ces valeurs sont très proches les unes des autres, College/Grad Student et College Student par exemple. Une façon d'améliorer la lisibilité et donc la qualité de vos données est de regrouper certaines de ces valeurs.

Pour rechercher et regrouper les contenus similaires, procédez comme suit :

Procédure

  1. Cliquez sur l'en-tête de la colonne Occupation pour sélectionner son contenu.
    La colonne Occupation est sélectionnée.

    Grâce au panneau Data Profiling, vous pouvez confirmer que certaines occurrences de noms de métiers ne varient que légèrement.

  2. Dans la liste des fonctions, sélectionnez Find and group similar text... (Rechercher et regrouper les textes similaires...)

    Le menu Find and group similar text (Trouver et grouper les textes similaires) s'ouvre.

    Menu Find and group similar text (Trouver et grouper les textes similaires)..

    Tous les métiers ou activités similaires sont regroupés dans la deuxième colonne, College/Grad Student et College Student dans cet exemple. La troisième colonne suggère un nom de métier ou d'activité qui pourrait remplacer les valeurs de la deuxième colonne. Vous pouvez choisir une autre valeur de la liste déroulante, ou saisir vous-même une nouvelle valeur. Désélectionnez les valeurs ou groupes que vous ne souhaitez pas modifier.

  3. Dans la liste déroulante de la troisième colonne, sélectionnez College Student.
  4. Cliquez sur Submit.

Résultats

Toutes les occurrences de College/Grad Student et College Student ont été regroupées sous la nouvelle valeur harmonisée College Student.