Indicateurs relatifs aux mots - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-04-16
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Les indicateurs de modèles relatifs aux mots comprennent des indicateurs sensibles et non sensibles à la casse.

Les indicateurs des modèles basés sur des mots calculent le nombre d'enregistrements pour chaque modèle distinct et sont disponibles uniquement avec le moteur Java.

Vous pouvez utiliser ces indicateurs avec le type de données String uniquement.

Indicateurs sensibles à la casse

Il y a deux types d'indicateurs sensibles à la casse :
  • L'indicateur de fréquence du modèle CS Word évalue les modèles de mots les plus fréquents.
  • L'indicateur de basse fréquence du modèle CS Word évalue les modèles de mots les moins fréquents.

Les modèles se focalisent sur les mots et sont sensibles à la casse :

Pattern (Modèle) Description
[Word] Mot commençant par un caractère en majuscule suivi de caractères en minuscules
[WORD] Mot composé de caractères en majuscules
[word] Mot composé de caractères en minuscules
[Char] Unique caractère en majuscule
[char] Unique caractère en minuscule
[Ideogram] Un des idéogrammes unifiés CJC
[IdeogramSeq] Séquence d'idéogrammes
[hiraSeq] Séquence de caractères japonais Hiragana
[kataSeq] Séquence de caractères japonais Katakana
[hangulSeq] Séquence de caractères coréens Hangul
[digit] Un des chiffres arabes : 0,1,2,3,4,5,6,7,8,9
[number] Séquence de chiffres

Lorsque vous utilisez les indicateurs CS Word Pattern Frequency et CS Word Pattern Low Frequency, les chaînes de caractères suivantes sont remplacées par les modèles suivants :

String Pattern
A character is NOT a Word [Char] [word] [word] [WORD] [char] [Word]
someWordsINwORDS [word][Word][WORD][char][WORD]
Example123@domain.com [Word][number]@[word].[word]
anotherExample8@domain.com [word][Word][digit]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [Word][digit][IdeogramSeq]
Latin3フランス [Word][digit][kataSeq]
Latin4とうきょう [Word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [Word][digit][hangulSeq]

Indicateurs non sensibles à la casse

Il y a deux types d'indicateurs insensibles à la casse :
  • L'indicateur de fréquence du modèle CI Word évalue les modèles de mots les plus fréquents.
  • L'indicateur de basse fréquence du modèle CI Word évalue les modèles de mots les moins fréquents.

Les modèles se focalisent sur les mots et ne sont pas sensibles à la casse :

Modèle Description
[word] Mot composé de caractères en minuscules
[char] Unique caractère en minuscule
[Ideogram] Un des idéogrammes unifiés CJC
[IdeogramSeq] Séquence d'idéogrammes
[hiraSeq] Séquence de caractères japonais Hiragana
[kataSeq] Séquence de caractères japonais Katakana
[hangulSeq] Séquence de caractères coréens Hangul
[digit] Un des chiffres arabes : 0,1,2,3,4,5,6,7,8,9
[number] Séquence de chiffres
[alnum] Valeur alphanumérique composée de caractères et de chiffres arabes

Lorsque vous utilisez les indicateurs CI Word Pattern Frequency et CI Word Pattern Low Frequency, les chaînes de caractères suivantes sont remplacées par les modèles suivants :

String Pattern
A character is NOT a Word [char] [word] [word] [word] [char] [word]
someWordsINwORDS [word]
Example123@domain.com [alnum]@[word].[word]
anotherExample8@domain.com [alnum]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [word][digit][IdeogramSeq]
Latin3フランス [word][digit][kataSeq]
Latin4とうきょう [word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [word][digit][hangulSeq]

Indicateurs de modèles et compatibilité avec les bases de données

Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :

Indicateur Types de données supportés par le moteur d'analyse Java Types de données supportés par le moteur d'analyse SQL
CS Word Pattern Frequency
  • Number
  • Text
  • Date
Aucun
CS Word Pattern Low Frequency
  • Number
  • Text
  • Date
Aucun
CI Word Pattern Frequency
  • Number
  • Text
  • Date
Aucun
CI Word Pattern Low Frequency
  • Number
  • Text
  • Date
Aucun