数値コリレーション分析 - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2023-09-13
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

このタイプの分析では、名義カラムと間隔カラム間のコリレーションを分析し、結果をバブルチャートの一種に出力します。

選択された各数値カラムについてバブルチャートが作成されます。バブルチャートにあるバブルはそれぞれ、名義カラムの重複を除いたレコードを表します。たとえば、sunny (11レコード)、rainy (16レコード)、overcast (4レコード)という3つの無重複の名義インスタンスを持つoutlookという名前の名義カラムには、バブルチャートに3つのバブルが生成されます。

この例の2番目のカラムはtemperatureカラムで、気温が摂氏で表されます。この例の分析では、outlookカラムとtemperatureカラム間のコリレーションが表示され、結果はバブルチャートに出力されます。垂直軸は数値カラムの平均を、水平軸は各名義インスタンスのレコード数を表します。平均気温は、"sunny"インスタンスが23.273、"rainy"インスタンスが7.5、"overcast"インスタンスが18.5となります。

このようなチャートでは、バブルの位置と大きさに注意する必要があります。

通常、異常値バブルには詳細な調査が必要です。左軸近くに表示されるバブルが多くなるほど、数値カラムの平均に対する信頼性が低くなります。たとえばovercastという名義インスタンスにはレコードが4つしかないため、バブルが左軸近くに表示されます。レコードが4つだけの平均は信頼できません。データクオリティに関する問題の検出時に、これらのバブルが疑わしい値を示すことがあります。

チャートの上部や下部の近くにバブルがある場合は、データクオリティに問題があることも考えられます。平均気温があまりに高かったり低かったりする場合は、気温測定が悪い可能性があります。

バブルのサイズは、NULL数値の個数を表します。間隔カラムに表示されるNULL値が多くなると、バブルはさらに大きくなります。

名義カラムが複数選択される場合は、この分析でカラムの順序が重要な役目を果たします。平均気温と天候は、同一色のバブル群が表示されます。平均気温とその他の名義カラムのレコードは、他のバブル群で表示されます。