分析の定義 (離散データ) - 7.0

カラム分析

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

手順

  1. [DQ Repository] (DQリポジトリ)ツリービューで[Metadata] (メタデータ)を展開し、分析を行う数値カラムに移動します。
  2. 数値カラムを右クリックし、[Column Analysis] (カラム分析)> [Discrete data Analysis] (離散データ分析)の順に選択します。
    この例では、顧客年齢をいくつかの離散Binまたは年齢値の範囲に変換します。
    [New Analysis] (新規分析)ウィザードが開きます。
  3. [Name] (名前)フィールドに、分析の名前を入力します。
    注:

    アイテムの名前には次の特殊文字は使用しないで下さい。

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">"

    ファイルシステムでは、これらの文字はすべて"_"に置き換えられ、重複するアイテムが作成されてしまう場合があります。

  4. 分析メタデータを設定し、[Finish] (終了)をクリックします。
    分析エディター内に分析が開き、[Simple Statistics] (シンプル統計)および[Bin Frequency] (Bin頻度)インジケーターが数値カラムに自動的に割り当てられます。
  5. [Bin Frequency] (Bin頻度)インジケーターをダブルクリックし、[Indicator settings] (インジケーターの設定)ダイアログボックスを開きます。
  6. Binの最小値と最大値、対応するフィールド内のBinの数を設定します。
    Binの数を0に設定すると、Binは作成されません。インジケーターはカラムの各値の頻度を計算します。
  7. [Set ranges manually] (範囲を手動で設定)チェックボックスをオンにします。
    [Create Bins] (Binの作成)ダイアログボックスの下部にある4つの読み取り専用フィールドには、TableauがBinのサイズの推奨に使用するデータが表示されます。 Binのサイズを手動で設定する場合に、これらの値を参考にすることもできます。
    連続数値データが離散Binに集約されます。テーブルには4つの範囲が、推奨するBinサイズとともにリストされます。最小値は最初のBinの先頭で、最大値は最後のBinの末尾です。各Binのサイズは、最小値と最大値の差をBinの数で除することで決定されます。
    Binのサイズを手動で設定する場合、これらの値はいつでも変更できます。範囲の数が更新されると、[number of bins] (Binの数)フィールドの値は自動的に更新されます。