Extraction de parties de champs selon des définitions sémantiques - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-02-21
Vous pouvez utiliser la fonction Extract values by semantic type pour extraire les différentes informations contenues dans une cellule dans de nouvelles colonnes, selon les types sémantiques prédéfinis ou personnalisés.

Pourquoi et quand exécuter cette tâche

La fonction vous permet de sélectionner jusqu'à cinq types sémantiques différents correspondant au type d'informations à extraire du champ donné. Elle fonctionne avec les types sémantiques basés sur des expressions régulières et dictionnaires, ainsi qu'avec des types sémantiques composés.

Pour cet exemple, imaginez que vous travaillez pour le Ministère de la Culture et que vous devez préparer les données en vous basant sur un sondage proposé aux visiteurs de musées. Ce sondage a rassemblé des informations démographiques simples relatives aux visiteurs, comme leur âge ou leur genre, mais également des commentaires, qu'ils ont pu saisir dans un champ spécifique. Ce champ de commentaire peut être utilisé par les visiteurs pour partager leur expérience, laisser des informations de contact ou encore recommander d'autres musées dans d'autres pays qu'ils ont visité. Ces informations peuvent être utilisées pour construire d'éventuels partenariats, par exemple.

Cependant, après une simple opération de parsage, les informations du champ des commentaires sont groupées dans un seul champ dans le jeu de données de résultat. D'un autre côté, vous pouvez vouloir extraire les différents types d'informations afin de les trier dans des colonnes spécifiques. Pour ce faire, utilisez la fonctionnalité Extract values by semantic type, ainsi que les types sémantiques prédéfinis ou personnalisés disponibles avec Talend Cloud Data Preparation, pour identifier les différentes catégories d'informations laissées dans les commentaires et les extraire dans des colonnes individuelles.

Jeu de donnés contenant des commentaires.

Procédure

  1. Cliquez sur l'en-tête de la colonne Comments pour sélectionner son contenu.
  2. Dans le panneau des fonctions, saisissez Extract values by semantic type et cliquez sur le résultat pour ouvrir les options pour la fonction associée.
    Panneau Extract values by semantic type (Extraire des valeurs par type sémantique) ouvert.
  3. Dans la première liste déroulante Semantic type, sélectionnez Museum.
    Tous les types sémantiques disponibles dans la liste déroulante correspondent soit aux types sémantiques prédéfinis, soit aux types personnalisés créés via Talend Dictionary Service. Chaque catégorie est extraite dans une nouvelle colonne.
  4. Dans la deuxième et la troisième liste déroulante Semantic type, sélectionnez Country et Email respectivement.
    Ces trois catégories correspondent aux types d'informations que vous espérez que les visiteurs de musées laissent dans le champ des commentaires.
  5. Cochez la case Normalize value pour appliquer un processus de standardisation aux valeurs extraites se basant sur les types sémantiques par défaut ou sur les types sémantiques basés sur des dictionnaires et sur les types sémantiques composés.
  6. Cliquez sur Submit.

Résultats

Toutes les informations correspondant aux types sémantiques sélectionnés, contenues dans un seul champ, sont extraites et affichées séparément dans de nouvelles colonnes. Si aucune information cohérente n'est présente dans le champ original, les cellules de résultat dans les nouvelles colonnes sont vides.
Jeu de données contenant des commentaires affichés dans de nouvelles colonnes distinctes.
Conseil : Cette transformation peut également être effectuée à l'aide de la fonction Magic fill.