離散データの分析を定義 - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

手順

  1. [DQ Repository] (DQリポジトリー)ツリービューで[Metadata] (メタデータ)を展開し、分析を行う数値カラムに移動します。
  2. 数値カラムを右クリックし、[Column Analysis] (カラム分析)> [Discrete data Analysis] (離散データ分析)と選択します。
    この例では、顧客年齢をいくつかの離散Binまたは年齢値の範囲に変換します。
    [New Analysis] (新しい分析)ウィザードが開きます。
  3. [Name] (名前)フィールドに、分析の名前を入力します。
    重要:

    ~ ! ` # ^ * & \\ / ? : ; \ , . ( ) ¥ ' " " " < > といった特殊文字は項目名に使用しないでください。

    ファイルシステムでは、これらの文字はすべて"_"に置き換えられ、重複する項目が作成されてしまう場合があります。

  4. 分析メタデータを設定し、[Finish] (終了)をクリックします。
    分析エディター内に分析が開き、[Simple Statistics] (シンプル統計)および[Bin Frequency] (Bin頻度)インジケーターが数値カラムに自動的に割り当てられます。
  5. [Bin Frequency] (Bin頻度)インジケーターをダブルクリックし、[Indicator settings] (インジケーターの設定)ダイアログボックスを開きます。
  6. 該当するフィールドで、Binの最小値と最大値、Binの数を設定します。
    Binの数を0に設定すると、Binは作成されません。インジケーターはカラムの各値の頻度を計算します。
  7. [Set ranges manually] (範囲を手動で設定)チェックボックスをオンにします。
    [Create Bins] (Binの作成)ダイアログボックスの下部にある4つの読み取り専用フィールドには、TableauがBinのサイズの推奨に使用するデータが表示されます。Binのサイズを手動で設定する場合に、これらの値を参考にすることもできます。
    連続数値データが離散Binに集約されます。テーブルには4つの範囲が、推奨するBinサイズと共にリスト表示されます。最小値は最初のBinの先頭で、最大値は最後のBinの末尾です。各Binのサイズは、最小値と最大値の差をBinの数で除することで決定されます。
    Binのサイズを手動で設定する場合、これらの値はいつでも変更できます。範囲の数がアップデートされると、[number of bins] (Binの数)フィールドの値は自動的にアップデートされます。