Modèles basés sur les mots - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Data Preparation
task
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Talend Data Preparation vous permet d'analyser la répartition dans vos données des modèles basés sur les mots.

Les indicateurs de modèles basés sur les mots sont sensibles à la casse. Le tableau suivant permet de savoir à quoi correspondent les modèles que vous pouvez trouver dans la zone de profiling :

Pattern (Modèle) Description
[Word] Mot commençant par un caractère en majuscule suivi de caractères en minuscules
[WORD] Mot composé de caractères en majuscules
[word] Mot composé de caractères en minuscules
[Char] Unique caractère en majuscule
[char] Unique caractère en minuscule
[Ideogram] Un des idéogrammes unifiés CJC
[IdeogramSeq] Séquence d'idéogrammes
[hiraSeq] Séquence de caractères japonais Hiragana
[kataSeq] Séquence de caractères japonais Katakana
[hangulSeq] Séquence de caractères coréens Hangul
[digit] Un des chiffres arabes : 0,1,2,3,4,5,6,7,8,9
[number] Séquence de chiffres

Les exemples suivants illustrent comment certains enregistrements seront interprétés dans Talend Data Preparation.

String Pattern
A character is NOT a Word [Char] [word] [word] [WORD] [char] [Word]
someWordsINwORDS [word][Word][WORD][char][WORD]
Example123@domain.com [Word][number]@[word].[word]
anotherExample8@domain.com [word][Word][digit]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [Word][digit][IdeogramSeq]
Latin3フランス [Word][digit][kataSeq]
Latin4とうきょう [Word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [Word][digit][hangulSeq]