Types de caractères asiatiques supportés dans les analyses de colonnes et les opérations de masquages - 7.1

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Qualité et préparation de données > Profiling de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
EnrichPlatform
Studio Talend

Types de caractères supportés dans les analyses de colonnes et les opérations de masquage

Lorsque vous masquez des données à l'aide de Talend Data Preparation ou du composant tDataMasking, chaque caractère dans les données d'entrée est transformé en un caractère appartenant au même type de caractères, dans l'un des intervalles Unicode supportés.

Lorsque vous créez une analyse de colonnes dans le Studio Talend, vous pouvez utiliser les indicateurs East Asia Pattern Frequency ou East Asia Pattern Low Frequency pour les caractères asiatiques, afin de définir le contenu, la structure et la qualité de données.

Le tableau ci-après décrit les types de caractères supportés et les intervalles Unicode correspondants (version 11.0).

Pour plus d'informations, consultez la documentation du standard Unicode (http://unicode.org/standard/standard.html) et les tables de caractères Unicode (http://www.unicode.org/charts/) (en anglais).

Type de caractères Intervalle Unicode (version 11.0) Caractères correspondants
Chiffres latins [0030-0039] [0-9]
Lettres minuscules latines [0061-007A] [00DF-00F6] [00F8-00FF] [a-z] [ß-ö] [ø-ÿ]
Lettres majuscules latines [0041-005A] [00C0-00D6] [00D8-00DE] [A-Z] [À-Ö] [Ø-Þ]
Chiffres latins pleine chasse [FF10-FF19] [0-9]
Lettres minuscules latines pleine chasse [FF41-FF5A] [A-Z]
Lettres majuscules latines pleine chasse [FF21-FF3A] [A-Z]
Hiragana [3041-3096] 30FC 309D 309E [ぁ-ゖ] ー ゝ ゞ
Katakana moyenne chasse [FF66-FF9D] [ヲ-ン]
Katakana pleine chasse [30A1-30FA] 30FC 30FD 30FE [ァ-ヺ] ー ヽ ヾ
Extensions phonétiques : [31F0-31FF] [ㇰ-ㇿ]
Kanji Supplément A aux idéogrammes unifiés CJC : [4E00-9FEF] [3400-4DB5] [一-] [㐀-䶵]
Supplément B aux idéogrammes unifiés CJC : [20000-2A6D6] [𠀀-𪛖]
Supplément C aux idéogrammes unifiés CJC : [2A700-2B734] [𪜀-𫜴]
Supplément D aux idéogrammes unifiés CJC : [2B740-2B81D] [𫝀-𫠝]
Supplément E aux idéogrammes unifiés CJC : [2B820-2CEA1] [-]
Supplément F aux idéogrammes unifiés CJC : [2CEB0-2EBE0] [-]
Idéogrammes de compatibilité CJC : [F900-FA6D] [FA70-FAD9] [豈-舘] [-]
Supplément aux idéogrammes de compatibilité CJC : [2F800-2FA1D] [-]
Clés chinoises KangXi : [2F00-2FD5] [⼀-⿕]
Formes supplémentaires des clés CJC : [2E80-2E99] [2E9B-2EF3] [⺀-⺙] [⺛-⻳]
Symboles et ponctuation CJC : [3005-3005] [3007-3007] [3021-3029] [3038-303B] [々-々] [〇-〇] [〡-〩] [〸-〻]
Hangul [AC00-D7AF] [가-힯]