Extraction de parties de champs selon des définitions sémantiques - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation
Vous pouvez utiliser la fonction Extract values by semantic type pour extraire les différentes informations contenues dans une cellule dans de nouvelles colonnes, selon les types sémantiques prédéfinis ou personnalisés.

Pourquoi et quand exécuter cette tâche

La fonction vous permet de sélectionner jusqu'à cinq types sémantiques différents correspondant au type d'informations à extraire du champ donné. Elle fonctionne avec les types sémantiques basés sur des expressions régulières et dictionnaires, ainsi qu'avec des types sémantiques composés.

Pour cet exemple, imaginez que vous travaillez pour le Ministère de la Culture et que vous devez préparer les données en vous basant sur un sondage proposé aux visiteurs de musées. Ce sondage a rassemblé des informations démographiques simples relatives aux visiteurs, comme leur âge ou leur genre, mais également des commentaires, qu'ils ont pu saisir dans un champ spécifique. Ce champ de commentaire peut être utilisé par les visiteurs pour partager leur expérience, laisser des informations de contact ou encore recommander d'autres musées dans d'autres pays qu'ils ont visité. Ces informations peuvent être utilisées pour construire d'éventuels partenariats, par exemple.

Cependant, après une simple opération de parsage, les informations du champ des commentaires sont groupées dans un seul champ dans le jeu de données de résultat. D'un autre côté, vous pouvez vouloir extraire les différents types d'informations afin de les trier dans des colonnes spécifiques. Pour ce faire, utilisez la fonctionnalité Extract values by semantic type, ainsi que les types sémantiques prédéfinis ou personnalisés disponibles avec Talend Cloud Data Preparation, pour identifier les différentes catégories d'informations laissées dans les commentaires et les extraire dans des colonnes individuelles.

Procédure

  1. Cliquez sur l'en-tête de la colonne Comments pour sélectionner son contenu.
  2. Dans le panneau des fonctions, saisissez Extract values by semantic type et cliquez sur le résultat pour ouvrir les options pour la fonction associée.
  3. Dans la première liste déroulante Semantic type, sélectionnez Museum.
    Tous les types sémantiques disponibles dans la liste déroulante correspondent soit aux types sémantiques prédéfinis, soit aux types personnalisés créés via Talend Dictionary Service. Chaque catégorie est extraite dans une nouvelle colonne.
  4. Dans la deuxième et la troisième liste déroulante Semantic type, sélectionnez Country et Email respectivement.
    Ces trois catégories correspondent aux types d'informations que vous espérez que les visiteurs de musées laissent dans le champ des commentaires.
  5. Cliquez sur Submit.

Résultats

Toutes les informations correspondant aux types sémantiques sélectionnés, contenues dans un seul champ, sont extraites et affichées séparément dans de nouvelles colonnes. Si aucune information cohérente n'est présente dans le champ original, les cellules de résultat dans les nouvelles colonnes sont vides.