単語ベースのパターン - 7.2

Talend Data Stewardshipユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > セマンティックタイプの管理
データクオリティとプレパレーション > タスク管理
管理と監視 > ユーザーの管理
EnrichPlatform
Talend Data Stewardship
Talend Data Stewardshipは単語ベースのパターンプロファイリングを実行し、キャンペーンにロードするデータのワードパターンを計算します。そのため、タスクの割り当てや解決の前に、データのコンテンツとストラクチャーに従って、それらのパターンを使用してタスクをフィルタリングすることができます。

ワードパターンでは大文字小文字が区別され、テキスト、ブール値、セマンティックタイプなどの数値以外のフィールドについてのみ計算が行われます。ワードパターンとその説明を次の表に示します。

パターン 説明
[Word] 大文字で始まり、小文字で構成される単語
[WORD] 大文字の単語
[word] 小文字の単語
[Char] 単一の大文字
[char] 単一の小文字
[Ideogram] CJK統合漢字の1つ
[IdeogramSeq] 連続する表意文字
[hiraSeq] 日本語の連続するひらがな文字
[kataSeq] 日本語の連続するカタカナ文字
[hangulSeq] 各国語の連続するハングル文字
[digit] アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか
[number] 連続する数字

以下の例は、Talend Data Stewardshipにおいて特定のレコードがどう解釈されるかを説明しています。

String パターン
1文字と1単語は異なります [char] [word] [word] [word] [char] [word]
someWordsINwORDS [word][Word][WORD][char][WORD]
Example123@domain.com [Word][number]@[word].[word]
anotherExample8@domain.com [word][Word][digit]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [word][digit][IdeogramSeq]
Latin3フランス [word][digit][kataSeq]
Latin4とうきょう [Word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [Word][digit][hangulSeq]