Statistiques de texte - 8.0

Guide d'utilisation de Talend Big Data Platform Studio

Version
8.0
Language
Français (France)
EnrichDitaval
Big Data Platform
Product
Talend Big Data Platform
Module
Studio Talend
Content
Création et développement

Vous pouvez définir les indicateurs de statistiques de texte sur une colonne uniquement si son type de data mining est nominal. Sinon, ces statistiques sont grisées dans la boîte de dialogue Indicator Selection. Pour plus d'informations concernant les types de data mining disponibles, consultez Types de data mining.

Les statistiques de texte permettent d'analyser les caractéristiques des champs textuels dans les colonnes, y compris les longueurs minimale, maximale et moyenne.

  • Minimal Length : calcule la longueur minimale d'un champ de texte. Il exclut les valeurs nulles et vides.
  • Maximal Length : calcule la longueur maximale d'un champ de texte. Il exclut les valeurs nulles et vides.
  • Average Length : calcule la longueur moyenne d'un champ. Il exclut les valeurs nulles et vides.

D'autres indicateurs de statistiques de texte sont disponibles, permettant de calculer les mêmes longueurs que les indicateurs ci-dessus, mais en prenant en compte les valeurs nulles, ou les valeurs blanches, ou les valeurs nulles et blanches.

Les valeurs Null seront comptées comme des données de longueur 0, autrement dit la longueur minimale des valeurs Null est 0. Cela signifie que les Autres indicateurs de texte sont disponibles pour compter chacun des indicateurs ci-dessus ayant des valeurs Null ou blanches, ou Null et blanches. Les indicateurs Minimal Length With Null et Maximal Length With Null calculeront la longueur minimale/maximale d'un champ textuel comprenant des valeurs Null, qui sont considérés comme étant du texte de longueur 0.

Les valeurs blanches sont comptées comme des données normales de longueur 1. Les valeurs blanches seront comptées comme des données normales de longueur 0, autrement dit la longueur minimale des valeurs blanches est 0. Cela signifie que Minimal Length With Blank et Maximal Length With Blank calculeront la longueur minimale/maximale d'un champ textuel comprenant des valeurs blanches.

Le même principe s'applique pour tous les indicateurs des longueurs moyennes. Les valeurs vides sont également comptées comme données de longueur 0.

Le tableau ci-dessous donne un exemple de calcul de la longueur d'un champ textuel dans une colonne en utilisant tous les types d'indicateurs de statistiques de texte.

Valeur Par exemple, calculez la longueur de champs textuels dans une colonne contenant les valeurs suivantes, en utilisant tous les types d'indicateurs de statistiques de texte :
"Brayan" 6
"Ava" 3
"_" 1
"" 0
<null> <null>
"__________" 10
Remarque : "_" représente une espace.
Vous obtiendrez les résultats suivants :

Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :

Type de données Number Text Date Autres
Type de moteur d'analyse Java SQL Java SQL Java SQL Java SQL
Longueur minimale :
Longueur minimale avec nulls
Longueur minimale avec blancs
Longueur minimale avec blancs et Null
Longueur maximale :
Longueur maximale avec nulls
Longueur maximale avec blancs
Longueur maximale avec blancs et Null
Average Length
Longueur moyenne avec Null
Longueur moyenne avec blancs
Longueur moyenne avec blancs et Null