単語ベースのパターンインジケーター - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-04-16
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

単語ベースのパターンインジケーターには、大文字と小文字が区別されるインジケーターと区別されないインジケーターが含まれています。

単語ベースのパターンインジケーターは、個別の各パターンのレコード数をカウントし、Javaエンジンでのみ使用できます。

これらのインジケーターは、文字列データ型とのみ使用できます。

大文字小文字が区別されるインジケーター

大文字と小文字を区別するインジケーターには次の2つのタイプがあります:
  • CSワードパターン頻度インジケーターは、最も頻度が高いワードパターンを評価します。
  • CSワードパターン低頻度インジケーターは、最も頻度が低いワードパターンを評価します。

パターンは単語にフォーカスし、大文字小文字が区別されます:

パターン 説明
[Word] 大文字で始まり、小文字で構成される単語
[WORD] 大文字の単語
[word] 小文字の単語
[Char] 単一の大文字
[char] 単一の小文字
[Ideogram] CJK統合漢字の1つ
[IdeogramSeq] 連続する表意文字
[hiraSeq] 日本語の連続するひらがな文字
[kataSeq] 日本語の連続するカタカナ文字
[hangulSeq] 各国語の連続するハングル文字
[digit] アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか
[number] 連続する数字

CSワードパターン頻度インジケーターとCSワードパターン低頻度インジケーターを使用すると、以下の文字列が以下のパターンに置換されます:

String Pattern
A character is NOT a Word [Char] [word] [word] [WORD] [char] [Word]
someWordsINwORDS [word][Word][WORD][char][WORD]
Example123@domain.com [Word][number]@[word].[word]
anotherExample8@domain.com [word][Word][digit]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [Word][digit][IdeogramSeq]
Latin3フランス [Word][digit][kataSeq]
Latin4とうきょう [Word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [Word][digit][hangulSeq]

大文字と小文字が区別されるインジケーター

大文字と小文字を区別しないインジケーターには次の2つのタイプがあります:
  • CIワードパターン頻度インジケーターは、最も頻度が高いワードパターンを評価します。
  • CIワードパターン低頻度インジケーターは、最も頻度が低いワードパターンを評価します。

パターンは単語にフォーカスし、大文字小文字が区別されません:

パターン 説明
[word] 小文字の単語
[char] 単一の小文字
[Ideogram] CJK統合漢字の1つ
[IdeogramSeq] 連続する表意文字
[hiraSeq] 日本語の連続するひらがな文字
[kataSeq] 日本語の連続するカタカナ文字
[hangulSeq] 各国語の連続するハングル文字
[digit] アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか
[number] 連続する数字
[alnum] 文字とアラビア数字で構成される英数字の値

CIワードパターン頻度インジケーターとCIワードパターン低頻度インジケーターを使用すると、以下の文字列が以下のパターンに置換されます:

String Pattern
A character is NOT a Word [char] [word] [word] [word] [char] [word]
someWordsINwORDS [word]
Example123@domain.com [alnum]@[word].[word]
anotherExample8@domain.com [alnum]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [word][digit][IdeogramSeq]
Latin3フランス [word][digit][kataSeq]
Latin4とうきょう [word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [word][digit][hangulSeq]

単語ベースのパターン頻度インジケーターとデータベースの互換性

どのデータベースでも選択できるインジケーターを次のテーブルに示します。

インジケーター Java解析エンジンでサポートされているデータ型 SQL解析エンジンでサポートされているデータ型
CSワードパターン頻度
  • Number
  • Text
  • Date
なし
CSワードパターン低頻度
  • Number
  • Text
  • Date
なし
CIワードパターン頻度
  • Number
  • Text
  • Date
なし
CIワードパターン低頻度
  • Number
  • Text
  • Date
なし