カラム分析とデータマスキング操作でサポートされる文字タイプ - 7.3

Talend Big Data Platform Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発

Talend Data PreparationまたはtDataMaskingコンポーネントを使用してデータをマスキングする場合、入力データ内の各文字は、サポートされるUnicode範囲内の同じ文字タイプの文字にマスキングされます。

Talend Studioでカラム分析を作成する場合は、アジア系の文字に 東アジアパターン頻度または東アジアパターン低頻度インジケーターを使用して、データのコンテンツ、構造、およびクオリティを定義できます。

次のテーブルは、サポートされる文字タイプおよび関連するUnicode範囲(バージョン11.0)を説明しています。

詳細は、Unicode標準のドキュメンテーション(http://unicode.org/standard/standard.html)および文字コードのチャート(http://www.unicode.org/charts/)を参照してください。

文字タイプ Unicode範囲(バージョン11.0) 対応する文字
ラテン数字 [0030-0039] [0-9]
ラテン小文字 [0061-007A] [00DF-00F6] [00F8-00FF] [a-z] [ß-ö] [ø-ÿ]
ラテン大文字 [0041-005A] [00C0-00D6] [00D8-00DE] [A-Z] [À-Ö] [Ø-Þ]
全角ラテン数字 [FF10-FF19] [0-9]
全角ラテン小文字 [FF41-FF5A] [a-z]
全角ラテン大文字 [FF21-FF3A] [A-Z]
ひらがな [3041-3096] 30FC 309D 309E [ぁ-ゖ] ー ゝ ゞ
半角カタカナ [FF66-FF9D] [ヲ-ン]
全角カタカナ [30A1-30FA] 30FC 30FD 30FE [ァ-ヺ] ー ヽ ヾ
表音拡張: [31F0-31FF] [ㇰ-ㇿ]
漢字 CJK拡張A: [4E00-9FEF] [3400-4DB5] [一-] [㐀-䶵]
CJK拡張B: [20000-2A6D6] [𠀀-𪛖]
CJK拡張C: [2A700-2B734] [𪜀-𫜴]
CJK拡張D: [2B740-2B81D] [𫝀-𫠝]
CJK拡張E: [2B820-2CEA1] [-]
CJK拡張F: [2CEB0-2EBE0] [-]
CJK互換漢字: [F900-FA6D] [FA70-FAD9] [豈-舘] [-]
CJK互換漢字補助: [2F800-2FA1D] [-]
康熙部首: [2F00-2FD5] [⼀-⿕]
CJK部首補助: [2E80-2E99] [2E9B-2EF3] [⺀-⺙] [⺛-⻳]
CJKの記号および句読点: [3005-3005] [3007-3007] [3021-3029] [3038-303B] [々-々] [〇-〇] [〡-〩] [〸-〻]
ハングル [AC00-D7AF] [가-힯]