Indicateurs relatifs aux mots - 7.1

Guide utilisateur de Talend Data Fabric Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
Création et développement
EnrichPlatform
Studio Talend

Les indicateurs de fréquence des modèles relatifs aux mots comprennent des indicateurs sensibles et non sensibles à la casse.

Les indicateurs de fréquence des modèles relatifs aux mots calculent le nombre d'enregistrements pour chaque modèle distinct et sont disponibles uniquement avec le moteur Java.

Indicateurs sensibles à la casse

Indicateur Purpose
CS Word Pattern Frequency Calcule le nombre d'enregistrements les plus fréquents.
CS Word Pattern Low Frequency Calcule le nombre d'enregistrements les moins fréquents.

Les modèles se focalisent sur les mots et sont sensibles à la casse :

Modèle Description
[Word] Mot commençant par un caractère en majuscule suivi de caractères en minuscules
[WORD] Mot composé de caractères en majuscules
[word] Mot composé de caractères en minuscules
[Char] Unique caractère en majuscule
[char] Unique caractère en minuscule
[Ideogram] Un des idéogrammes unifiés CJC
[IdeogramSeq] Séquence d'idéogrammes
[hiraSeq] Séquence de caractères japonais Hiragana
[kataSeq] Séquence de caractères japonais Katakana
[hangulSeq] Séquence de caractères coréens Hangul
[digit] Un des chiffres arabes : 0,1,2,3,4,5,6,7,8,9
[number] Séquence de chiffres

Lorsque vous utilisez les indicateurs CS Word Pattern Frequency et CS Word Pattern Low Frequency, les chaînes de caractères suivantes sont remplacées par les modèles suivants :

Chaîne de caractères Modèle
A character is NOT a Word [Char] [word] [word] [WORD] [char] [Word]
someWordsINwORDS [word][Word][WORD][char][WORD]
Example123@domain.com [Word][number]@[word].[word]
anotherExample8@domain.com [word][Word][digit]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [Word][digit][IdeogramSeq]
Latin3フランス [Word][digit][kataSeq]
Latin4とうきょう [Word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [Word][digit][hangulSeq]

Indicateurs non sensibles à la casse

Indicateur Purpose
CI Word Pattern Frequency Calcule le nombre d'enregistrements les plus fréquents.
CI Word Pattern Low Frequency Calcule le nombre d'enregistrements les moins fréquents.

Les modèles se focalisent sur les mots et ne sont pas sensibles à la casse :

Modèle Description
[word] Mot composé de caractères en minuscules
[char] Unique caractère en minuscule
[Ideogram] Un des idéogrammes unifiés CJC
[IdeogramSeq] Séquence d'idéogrammes
[hiraSeq] Séquence de caractères japonais Hiragana
[kataSeq] Séquence de caractères japonais Katakana
[hangulSeq] Séquence de caractères coréens Hangul
[digit] Un des chiffres arabes : 0,1,2,3,4,5,6,7,8,9
[number] Séquence de chiffres
[alnum] Valeur alphanumérique composée de caractères et de chiffres arabes

Lorsque vous utilisez les indicateurs CI Word Pattern Frequency et CI Word Pattern Low Frequency, les chaînes de caractères suivantes sont remplacées par les modèles suivants :

String Modèle
A character is NOT a Word [char] [word] [word] [word] [char] [word]
someWordsINwORDS [word]
Example123@domain.com [alnum]@[word].[word]
anotherExample8@domain.com [alnum]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [word][digit][IdeogramSeq]
Latin3フランス [word][digit][kataSeq]
Latin4とうきょう [word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [word][digit][hangulSeq]