Découvrir des types sémantiques - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-02-21

La découverte de données calcule combien de valeurs correspondent à chaque type sémantique et, si le résultat est supérieur à 40 %, elle attribue le type sémantique à la colonne.

Pour afficher le pourcentage de chaque type sémantique, dans la vue de l'échantillon de votre jeu de données, cliquez sur l'icône menu.

Type sémantique affiché pour Address Line (Ligne d'adresse).

Cette fonctionnalité est également disponible depuis la vue Hierarchy (Hiérarchie).

Comment le pourcentage est-il calculé ?

Ce pourcentage est la somme de deux pourcentages :
  • Un pourcentage représente le nombre de valeurs correspondant au type sémantique ; jusqu'à 100 % alloués.

    Pour déterminer si une valeur correspond à un type sémantique, la découverte de données dépend du type du type sémantique :

    • Dictionnaire : La valeur correspond-elle à une valeur du dictionnaire ? La ponctuation, la casse, les espaces et les accents sont ignorés.
    • Regular expression (Expression régulière) : La valeur correspond-elle à l'expression régulière ?
    • Compound (Composé·e) : La valeur est-elle découverte dans au moins un enfant ?
      Un type composé est un groupe de types sémantiques existants, appelés enfants.

    Si la réponse est positive, la valeur est considérée comme valide.

  • L'autre pourcentage représente la similarité entre le nom de colonne et le nom du type sémantique ; jusqu'à 10 % alloués.
    Pour comparer les noms :
    • C'est l'algorithme de Levenshtein qui est utilisé. Il calcule le nombre minimal de modifications (insertions, suppressions ou substitutions) nécessaires à la transformation d'une chaîne de caractères en une autre.
    • La casse et les accents sont ignorés.
    • Si les chaînes de caractères contiennent des espaces, l'ordre des mots est ignoré. Par exemple, US Phone et Phone US sont considérés comme identiques.
    Le pourcentage maximal est de 100 %. Si toutes les valeurs correspondent à un type sémantique et que le nom de colonne est identique au nom du type sémantique, le résultat est toujours de 100 %.