Découvrir des types sémantiques - 7.2

Guide d'utilisation de Talend Data Preparation

EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Data Preparation
task
Qualité et préparation de données > Nettoyage de données

La découverte de données calcule combien de valeurs correspondent à chaque type sémantique et, si le résultat est supérieur à 40 %, elle attribue le type sémantique à la colonne.

Lorsqu'aucun type sémantique n'obtient plus de 40 %, la découverte des données attribué un type de données (data type).

Pour afficher le pourcentage de chaque type sémantique, cliquez sur l'icône .

Comment le pourcentage est-il calculé ?

Ce pourcentage est la somme de deux pourcentages :
  • Un pourcentage représente le nombre de valeurs correspondant au type sémantique ; jusqu'à 100 % alloués.

    Pour déterminer si une valeur correspond à un type sémantique, la découverte de données dépend du type du type sémantique :

    • Dictionary (Dictonnaire) : la valeur correspond-elle à une valeur du dictionnaire ? La ponctuation, la casse, les espaces et les accents sont ignorés.
    • Regular expression (Expression régulière) : La valeur correspond-elle à l'expression régulière ?
    • Compound (Composé·e) : La valeur est-elle découverte dans au moins un enfant ?
      Un type composé est un groupe de types sémantiques existants, appelés enfants.

    Si la réponse est positive, la valeur est considérée comme valide.

  • L'autre pourcentage représente la similarité entre le nom de colonne et le nom du type sémantique ; jusqu'à 10 % alloués.
    Pour comparer les noms :
    • C'est l'algorithme de Levenshtein qui est utilisé. Il calcule le nombre minimal de modifications (insertions, suppressions ou substitutions) nécessaires à la transformation d'une chaîne de caractères en une autre.
    • La casse et les accents sont ignorés.
    • Si les chaînes de caractères contiennent des espaces, l'ordre des mots est ignoré. Par exemple, US Phone et Phone US sont considérés comme identiques.
    Le pourcentage maximal est de 100 %. Si toutes les valeurs correspondent à un type sémantique et que le nom de colonne est identique au nom du type sémantique, le résultat est toujours de 100 %.

Afficher la barre de statistiques

La barre de statistiques affiche le nombre de valeurs invalides, vides et valides selon le type sémantique assigné. Pour l'afficher, activez le paramètre Use for validation (Utiliser pour la validation) dans la configuration du type sémantique.
Le pourcentage de valeurs valides peut être inférieur à celui de la découverte de données. Cela se produit lorsque :
  • la règle de validation est plus restrictive que le type sémantique. Dans ce cas, les valeurs correspondent aux valeurs du type sémantique, mais, depuis la règle de validation, les valeurs ne correspondent pas, par exemple sur la casse ou la ponctuation.
  • La similarité entre le nom de la colonne et le nom du type sémantique augmente le résultat du type sémantique à 100 %. Dans ce cas, la barre de statistiques affiche entre 90 % et 100 % de valeurs valides.

Découvrir des types de données

Au lieu des types sémantiques, les types de données peuvent être attribués. Si aucun type sémantique n'obtient plus de 40 %, la découverte des données attribué un type de données (data type).

Pour déterminer le type d'une valeur, la découverte de données suit un ordre :
  1. La valeur est-elle vide ?
  2. La valeur du type est-elle boolean (booléen) ? true et false sont les seules valeurs considérées comme type boolean (booléen).
  3. La valeur du type est-elle integer (entier) ?
  4. La valeur du type est-elle decimal (décimal) ?
  5. La valeur du type est-elle date ?
  6. Si la valeur n'est pas l'un des types ci-dessus, elle est considérée comme une valeur text (texte).

Comme la vérification est incrémentale, une valeur est toujours d'un seul type. Par exemple, la valeur 5 est de type integer (entier). Elle ne sera pas considérée comme type text (texte).