単語ベースのパターンインジケーター - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-02-13
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

単語ベースのパターンインジケーターには、大文字小文字が区別されるインジケーターと大文字小文字が区別されないインジケーターが含まれます。

単語ベースのパターンインジケーターは、個別の各パターンのレコード数をカウントし、Javaエンジンでのみ使用できます。

これらのインジケーターは、文字列データ型とのみ使用できます。

大文字小文字が区別されるインジケーター

インジケーター 目的
CSワードパターン頻度 最も頻度の高いワードパターンを評価します。
CSワードパターン低頻度 最も頻度の低いワードパターンを評価します。

パターンは単語にフォーカスし、大文字小文字が区別されます:

パターン 説明
[Word] 大文字で始まり、小文字で構成される単語
[WORD] 大文字の単語
[word] 小文字の単語
[Char] 単一の大文字
[char] 単一の小文字
[Ideogram] CJK統合漢字の1つ
[IdeogramSeq] 連続する表意文字
[hiraSeq] 日本語の連続するひらがな文字
[kataSeq] 日本語の連続するカタカナ文字
[hangulSeq] 各国語の連続するハングル文字
[digit] アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか
[number] 連続する数字

CSワードパターン頻度インジケーターとCSワードパターン低頻度インジケーターを使用すると、以下の文字列が以下のパターンに置換されます:

String Pattern
A character is NOT a Word [Char] [word] [word] [WORD] [char] [Word]
someWordsINwORDS [word][Word][WORD][char][WORD]
Example123@domain.com [Word][number]@[word].[word]
anotherExample8@domain.com [word][Word][digit]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [Word][digit][IdeogramSeq]
Latin3フランス [Word][digit][kataSeq]
Latin4とうきょう [Word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [Word][digit][hangulSeq]

大文字小文字が区別されないインジケーター

インジケーター 目的
CIワードパターン頻度 最も頻度の高いワードパターンを評価します。
CIワードパターン低頻度 最も頻度の低いワードパターンを評価します。

パターンは単語にフォーカスし、大文字小文字が区別されません:

パターン 説明
[word] 小文字の単語
[char] 単一の小文字
[Ideogram] CJK統合漢字の1つ
[IdeogramSeq] 連続する表意文字
[hiraSeq] 日本語の連続するひらがな文字
[kataSeq] 日本語の連続するカタカナ文字
[hangulSeq] 各国語の連続するハングル文字
[digit] アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか
[number] 連続する数字
[alnum] 文字とアラビア数字で構成される英数字の値

CIワードパターン頻度インジケーターとCIワードパターン低頻度インジケーターを使用すると、以下の文字列が以下のパターンに置換されます:

String Pattern
A character is NOT a Word [char] [word] [word] [word] [char] [word]
someWordsINwORDS [word]
Example123@domain.com [alnum]@[word].[word]
anotherExample8@domain.com [alnum]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [word][digit][IdeogramSeq]
Latin3フランス [word][digit][kataSeq]
Latin4とうきょう [word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [word][digit][hangulSeq]

どのデータベースでも選択できるインジケーターを次のテーブルに示します。

データ型 数字 Text Date その他
分析エンジンのタイプ Java SQL Java SQL Java SQL Java SQL
CSワードパターン頻度
CSワードパターン低頻度
CIワードパターン頻度
CIワードパターン低頻度