[Pattern frequency statistics] (パターン頻度統計) - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このグループのインジケーターは最も頻度の高いパターンおよび頻度の低いパターンを計算します。

  • パターン頻度: 個別のパターンから最も頻度の高いレコードの数を計算します。

  • パターン低頻度: 個別のパターンから頻度の低いレコードの数を計算します。

上記の2つのインジケーターは、英字をa、数値を9に変換することでパターンを生成します。

  • 東アジアパターン頻度: 個別のパターンから最も頻度の高いレコードの数を計算します。

  • 東アジアパターン低頻度: 個別のパターンから頻度の低いレコードの数を計算します。

上記の2つのインジケーターにはLatin文字のみ使用できます。また、Javaエンジンでのみ使用できます。アジア系のデータのパターンを特定するときに有用です。

上記の2つのインジケーターは、アジア系の文字を下記のテーブルで説明するルールに従ってH,K,CGなどの文字に変換することでパターンを生成します。

文字タイプ

Unicode範囲

使用方法

ひらがな

\u3040-\u309F

大文字と小文字がそれぞれHhに置き換わります

片仮名

\u30A1-\u30FA

大文字と小文字がそれぞれKkに置き換わります

片仮名拡張

\u31F0-\u31FF

すべての文字がkに置き換わります(小文字)

半角片仮名

\uFF66-\uFF9F

大文字と小文字がそれぞれKkに置き換わります

全角英数字

\uFF10-\uFF19

すべてのASCII数字が9に置き換わります

全角Latin大文字

\uFF21-\uFF3A

すべての文字がAに置き換わります

全角Latin小文字

\uFF41-\uFF5A

すべてのASCII Latin文字がaに置き換わります

漢字

CJK統合漢字:

  • [4E00-9FCC]

CJK拡張-A:

  • [3400-4DB5]

CJK拡張B:

  • [20000-2A6D6]

CJK拡張C:

  • [2A700-2B734]

CJK拡張D:

  • [2B740-2B81D]

CJK互換漢字:

  • [F900-FA6D]

  • [FA70-FAD9]

CJK互換漢字補助:

  • [2F800-2FA1D]

CJKラジカル/ KangXiラジカル:

  • [2F00-2FD5]

CJKラジカル補助:

  • [2E80-2E99]

  • [2E9B-2EF3]

CJKの記号および句読点:

  • [3005-3005]

  • [3007-3007]

  • [3021-3029]

  • [3038-303B]

漢字がCに置き換わります

ハングル

\uAC00-\uD7AF

ハングル文字がGに置き換わります

以下は、[East Asia Pattern Frequency] (東アジアパターン頻度)インジケーターおよび[East Asia Pattern Low Frequency] (東アジアパターン低頻度)インジケーターを[address] (住所)カラムに使用したカラム分析の例です。

[East Asia Pattern Low Frequency] (東アジアパターン低頻度)インジケーターの分析結果は次のようになります。

これらの結果には、個別の各パターンの最も頻度の低いレコードの数が示されます。文字と数字によるパターンもあれば、文字だけのパターンもあります。パターンは長さも異なります。すなわち、住所は一貫しておらず、訂正とクリーン化が必要になる場合があります。