[Text statistics] (テキスト統計) - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

分析エディターでデータマイニングタイプが[nominal] (名義)に設定されている場合にのみ、テキスト統計インジケーターを使用してカラムを分析できます。そうでない場合、これらの統計は[Indicator Selection] (インジケーター選択)ダイアログボックスで選択不可となります。使用できるデータマイニングタイプの詳細は、データマイニングのタイプを参照して下さい。

テキスト統計はカラム内のテキストフィールドの最小文字数、最大文字数、平均文字数などの特性を分析することができます。

  • [Minimal Length] (最小文字数): Null以外で空でないテキストフィールドの最小文字数を計算します。
  • [Maximal Length] (最大文字数): Null以外で空でないテキストフィールドの最大文字数を計算します。
  • [Average Length] (平均文字数): Null以外で空でないテキストフィールドの平均文字数を計算します。

他にも、上記の各インジケーターでnull値を持つもの、空白値を持つもの、null値と空白値の両方を持つものをカウントすることもできます。

null値のデータ長は0としてカウントされます。つまり、null値の最小文字数は0です。つまり、[Minimal Length With Null] (nullを含めた最小文字数)および[Maximal Length With Null] (nullを含めた最大文字数)では、長さが0のテキストと見なされるnull値を含めたテキストフィールドの最小/最大長を計算します。

空白値の標準データ長は0としてカウントされます。つまり、空白値の最小文字数は0です。つまり、[Minimal Length With Blank] (空白を含めた最小文字数)および[Maximal Length With Blank] (空白を含めた最大文字数)では空白値を含めたテキストフィールドの最小/最大長を計算します。

全ての平均インジケーターにも同様のことが当てはまります。

たとえば、テキスト統計インジケーターのあらゆる異なるタイプを使用して、以下の値を含むカラム内のテキストフィールドの長さを計算します:

[Value] (値) 文字数
"Brayan" 6
"Ava" 3
"_" 1
"" 0
<null> <null>
"__________" 10
注: "_"はスペース文字を表します。
結果は次のとおりです: