Recherche et regroupement de contenu similaire - 2.8

Guide de prise en main de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

La recherche et le regroupement de texte similaires peuvent être utilisés pour harmoniser du contenu avec de légères variations.

Le fichier customers.xlsx comporte des informations sur l'activité professionnelle de vos clients. Certaines de ces valeurs sont très proches les unes des autres, College/Grad Student et College Student par exemple. Une façon d'améliorer la lisibilité et donc la qualité de vos données est de regrouper certaines de ces valeurs.

Pour rechercher et regrouper les contenus similaires, procédez comme suit :

Procédure

  1. Cliquez sur l'en-tête de la colonne Occupation pour sélectionner son contenu.

    Grâce au panneau Data Profiling , vous pouvez confirmer que certaines occurrences de noms de métiers ne varient que légèrement.

  2. Dans la liste des fonctions, sélectionnez Find and Group Similar Text...

    Le menu Find and group similar text (Trouver et grouper les textes similaires) s'ouvre.

    Tous les métiers ou activités similaires sont regroupés dans la deuxième colonne, College/Grad Student et College Student dans cet exemple. La troisième colonne suggère un nom de métier ou d'activité qui pourrait remplacer les valeurs de la deuxième colonne. Vous pouvez choisir une autre valeur de la liste déroulante, ou saisir vous-même une nouvelle valeur. Désélectionnez les valeurs ou groupes que vous ne souhaitez pas modifier.

  3. Dans la liste déroulante de la troisième colonne, sélectionnez College Student.
  4. Cliquez sur Submit.

Résultats

Toutes les occurrences de College/Grad Student et College Student ont été regroupées sous la nouvelle valeur harmonisée College Student.