Text statistics (テキスト統計) - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

分析エディターでデータマイニングタイプが[nominal] (名義)に設定されている場合にのみ、テキスト統計インジケーターを使用してカラムを分析できます。そうでない場合、これらの統計は[Indicator Selection] (インジケーター選択)ダイアログボックスで選択不可となります。使用できるデータマイニングタイプの詳細は、データマイニングのタイプを参照してください。

テキスト統計はカラム内のテキストフィールドの最小文字数、最大文字数、平均文字数などの特性を分析できます。

  • Minimal Length (最小文字数): Null以外で空でないテキストフィールドの最小文字数を計算します。
  • Maximal Length (最大文字数): Null以外で空でないテキストフィールドの最大文字数を計算します。
  • 平均文字数: Nullでも空でもないテキストフィールドの平均文字数を計算します。

他にも、上記の各インジケーターでnull値を持つもの、空白値を持つもの、null値と空白値の両方を持つものをカウントすることもできます。

Nullは長さが0のデータとして(つまりNull値の最小長は0として)カウントされます。このため、[Minimal Length With Null] (Nullを持つ最小文字数)[Maximal Length With Null] (Nullを持つ最大文字数)では、Null値が含まれているテキストフィールドの最小長と最大長を計算します。この両者は長さが0のテキストとして判断されます。

[Minimal Length With Blank] (空白を含む最小文字数)[Maximal Length With Blank] (空白を含む最大文字数)では、空白値が含まれているテキストフィールドの最小長と最大長を計算します。

どの平均インジケーターにも同様の計算が適用されます。

たとえば、テキスト統計インジケーターのあらゆる異なるタイプを使用して、以下の値を含むカラム内のテキストフィールドの長さを計算します:

文字数
"Brayan" 6
"Ava" 3
"_" 1
"" 0
<null> <null>
"__________" 10
注: "_"はスペース文字を表します。
結果は次のようになります。