テキスト統計 - 7.3

Talend Data Fabric Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Data Fabric
Module
Talend Studio
Content
ジョブデザインと開発

分析エディターでデータマイニングタイプが[nominal] (名義)に設定されている場合にのみ、テキスト統計インジケーターを使用してカラムを分析できます。それ以外の場合、これらの統計は[Indicator Selection] (インジケーター選択)ダイアログボックスでは選択不可となります。使用できるデータマイニングタイプの詳細は、データマイニングのタイプを参照してください。

テキスト統計はカラム内のテキストフィールドの最小文字数、最大文字数、平均文字数などの特性を分析できます。

  • [Minimal Length] (最小文字数): テキストフィールドの最小文字数を計算します。null値と空白値は除外されます。
  • [Maximal Length] (最大文字数): テキストフィールドの最大文字数を計算します。null値と空白値は除外されます。
  • [Average Length] (平均文字数): テキストフィールドの平均文字数を計算します。null値と空白値は除外されます。

他にも、上記の各インジケーターでnull値を持つもの、空白値を持つもの、null値と空白値の両方を持つものをカウントすることもできます。

null値は長さ0のデータとしてカウントされ、null値の最小長は0となります。そのため、null値、空白値、またはその両方を持つ上述の各インジケーターは、その他のテキストインジケーターを使ってカウントできます。[Minimal Length With Null] (nullを含む最小文字数)[Maximal Length With Null] (nullを含む最大文字数)では、長さが0のテキストと見なされるnull値が含まれているテキストフィールドの最小長と最大長が計算されます。

空白値は長さが1の標準データとしてカウントされます。空の値は長さが0のデータとしてカウントされるため、空白値の最小長は0となります。そのため、[Minimal Length With Blank] (空白を含む最小文字数)[Maximal Length With Blank] (空白を含む最大文字数)では、空白値が含まれているテキストフィールドの最大長と最小長が計算されます。

どの平均インジケーターにも同様の計算が適用されます。空の値も長さが0のデータとしてカウントされます。

たとえば、テキスト統計インジケーターのあらゆる異なるタイプを使い、以下の値が含まれているカラム内のテキストフィールドの長さを計算します。

文字数
"Brayan" 6
"Ava" 3
"_" 1
"" 0
<null> <null>
"__________" 10
注: "_"はスペース文字を表します。
結果は次のとおりです:

どのデータベースでも選択できるインジケーターを次のテーブルに示します。

データ型 数字 Text Date その他
分析エンジンのタイプ Java SQL Java SQL Java SQL Java SQL
最小文字数
nullを含む最小文字数
空白を含む最小文字数
空白とnullを含む最小文字数
最大文字数
nullを含む最大文字数
空白を含む最大文字数
空白とnullを含む最大文字数
平均文字数
nullを含む平均長
空白を含む平均長