数値コリレーション分析結果の検討 - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

始める前に

数値コリレーション分析がTalend Studio Profiling パースペクティブで定義され、実行されていること。

手順

  1. 分析エディターの[Analysis Results] (分析結果)ビューで、[Graphics] (グラフィック)[Simple Statistics] (シンプル統計)[Data](データ)のいずれかをクリックすると、生成されたグラフィック、分析されたレコード数、実際に分析されたデータがそれぞれ表示されます。
    [Graphics] (グラフ)ビューの場合、バブルチャートに描かれるデータには凡例があり、データとその色が決まっています。

    左軸近くに表示されるバブルが多くなるほど、数値カラムの平均に対する信頼性が低くなります。上の例で選択されたバブルの場合、会社名が不明でありデータレコードが2つしかないため、バブルが左軸近くに表示されています。レコードが2つだけの平均年齢は信頼できません。データクオリティに関する問題の検出時に、これらのバブルが疑わしい値を示すことがあります。

    チャートの上部や下部の近くにバブルがある場合は、データクオリティに問題があることも考えられます。上の例では、平均年齢が高すぎたり低すぎたりすることが挙げられます。

  2. 生成されたグラフィックから以下のアクションを実行できます。
    • バブルチャートで非表示にする値のチェックボックスを選択解除する。
    • いずれかのバブルにポインターを置いて、その位置のコリレーションデータを表示させる。
    • いずれかのバブルを右クリックし、次のオプションを選択する。
      オプション 内容...
      [Show in full screen] (全画面表示) 生成されたグラフを全画面で開きます。
      [View rows] (行を表示) 選択されたカラムにある、分析された全ての行にアクセスします。

タスクの結果

次の図は、選択された場所における相関するデータ値をリスト表示しているSQLエディターの例です。

SQLエディターのエディターツールバーにある保存アイコンをクリックすると実行されたクエリを保存し、[DQ Repository] (DQリポジトリ)ツリービューの[Libraries] (ライブラリ) > [Source Files] (ソースファイル)フォルダーの下にリスト表示することができます。詳細は、インジケーターで実行したクエリの保存を参照して下さい。

[Simple Statistics] (シンプル統計)ビューでは、特定のカテゴリに含まれる分析レコードの数(行数、重複を除いた一意値の数、重複値の数など)が表示されます。

[Data] (データ)ビューでは、実際に分析されたデータが表示されます。

テーブルの任意のカラムヘッダーをクリックすることで結果テーブルに表示されたデータを並べ替えることができます。