Découvrir des types sémantiques et de données

Découvrir des types sémantiques et de données - 8.0

Guide d'utilisation de Talend Data Catalog

Version

8.0

Language

Français

Product

Talend Big Data Platform

Talend Data Fabric

Talend Data Management Platform

Talend Data Services Platform

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Talend Data Catalog

Content

Gouvernance de données

Last publication date

2023-11-13

L'exploration de données calcule combien de valeurs correspondent à chaque classe de données et, si le résultat est supérieur à 50 %, elle suggère la classe de données. La découverte de données attribue également des types de données (data types).

Depuis l'onglet Overview (Vue d'ensemble), vous pouvez voir les pourcentages dans les zones Inferred Datatypes (Types de données déduits) et Data Classifications (Classifications de données).

Les classes de données déduites supérieures au pourcentage défini dans le champ Matching Threshold (Seuil de rapprochement) sont suggérées dans la zone Data Classifications (Classifications de données). Par défaut, le champ Matching Threshold (Seuil de rapprochement) est configuré à 50 %. Cela signifie que les classes de données déduites supérieures à 50 % sont suggérées par défaut.

Pour attribuer ou rejeter une classe de données proposée, cliquez respectivement sur le bouton représentant une coche ou une croix. Vous pouvez attribuer plusieurs classes de données. Lorsqu'une classe de données est rejetée, elle est supprimée.

Comment le pourcentage est-il calculé ?

Ce pourcentage est la somme de deux pourcentages :

Un pourcentage représente le nombre de valeurs correspondant à la classe de données ; jusqu'à 100 % alloués.
Pour déterminer si une valeur correspond à une classe de données, l'exploration de données dépend du type de la classe de données :
- Enumeration (Enumération) : La valeur correspond-elle à une valeur du dictionnaire ? La ponctuation, la casse, les espaces et les accents sont ignorés.
- Regular expression (Expression régulière) : La valeur correspond-elle à l'expression régulière ?
- Compound (Composé·e) : La valeur est-elle découverte dans au moins un enfant ?
  Un type composé est un groupe des classes de données existantes, appelées enfants.
Si la réponse est positive, la valeur est considérée comme valide.
L'autre pourcentage représente la similarité entre le nom de colonne et le nom de la classe de données ; jusqu'à 10 % alloués.
Pour comparer les noms :
- C'est l'algorithme de Levenshtein qui est utilisé. Il calcule le nombre minimal de modifications (insertions, suppressions ou substitutions) nécessaires à la transformation d'une chaîne de caractères en une autre.
- La casse et les accents sont ignorés.
- Si les chaînes de caractères contiennent des espaces, l'ordre des mots est ignoré. Par exemple, US Phone et Phone US sont considérés comme identiques.
Le pourcentage maximal est de 100 %. Si toutes les valeurs correspondent à une classe de données et que le nom de colonne est identique au nom de la classe de données, le résultat est toujours de 100 %.

Découvrir des types de données

Les types de données sont automatiquement attribués. Vous n'avez pas besoin de les accepter.

Pour déterminer le type d'une valeur, la découverte de données suit un ordre :

La valeur est-elle vide ?
La valeur du type est-elle boolean (booléen) ? true et false sont les seules valeurs considérées comme type boolean (booléen).
La valeur du type est-elle integer (entier) ?
La valeur du type est-elle decimal (décimal) ?
La valeur du type est-elle date ?
Si la valeur n'est pas l'un des types ci-dessus, elle est considérée comme une valeur text (texte).

Comme la vérification est incrémentale, une valeur est toujours d'un seul type. Par exemple, la valeur 5 est de type integer (entier). Elle ne sera pas considérée comme type text (texte).