単語ベースのパターン - Cloud

Talend Cloud Data Preparationユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
Last publication date
2024-03-26
Talend Data Preparationでは、データ内の単語ベースのパターン配分を分析できます。
単語ベースのパターンインジケーターでは大文字と小文字が区別されます。
プロファイリングエリアで見つけることができるパターンのリスト
パターン 説明
[Word] 大文字で始まり、小文字で構成される単語
[WORD] 大文字の単語
[Word] (単語) 小文字の単語
[Char] 単一の大文字
[char] 単一の小文字
[Ideogram] CJK統合漢字の1つ
[IdeogramSeq] 連続する表意文字
[hiraSeq] 日本語の連続するひらがな文字
[kataSeq] 日本語の連続するカタカナ文字
[hangulSeq] 各国語の連続するハングル文字
[digit] アラビア数字の1つ: 0,1,2,3,4,5,6,7,8,9
[number] 連続する数字
Talend Data Preparationで特定のレコードがどう解釈されるかを示す例
文字列 パターン
1文字と1単語は異なります [char] [word] [word] [word] [char] [word]
someWordsINwORDS [word][Word][WORD][char][WORD]
Example123@domain.com [Word][number]@[word].[word]
anotherExample8@domain.com [word][Word][digit]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [word][digit][IdeogramSeq]
Latin3フランス [word][digit][kataSeq]
Latin4とうきょう [Word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [Word][digit][hangulSeq]