数値コリレーション分析 - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

このタイプの分析では、名義カラムと間隔カラム間のコリレーションを分析し、結果をバブルチャートの一種に出力します。

選択された各数値カラムについてバブルチャートが作成されます。バブルチャートにあるバブルはそれぞれ、名義カラムの重複を除いたレコードを表します。たとえば、sunny (11レコード)、rainy (16レコード)、overcast (4レコード)という重複を除いた3つの名義インスタンスを持つoutlookという名前の名義カラムには、バブルチャートに3つのバブルが生成されます。

この例の2番目のカラムはtemperatureカラムで、気温が摂氏で表されます。この例の分析では、outlookカラムとtemperatureカラム間のコリレーションが表示され、結果はバブルチャートに出力されます。垂直軸は数値カラムの平均を、水平軸は各名義インスタンスのレコード数を表します。平均気温は、"sunny"インスタンスが23.273、"rainy"インスタンスが7.5、"overcast"インスタンスが18.5となります。

このようなチャートでは、バブルの位置と大きさに注意する必要があります。

通常、異常値バブルには詳細な調査が必要です。左軸近くに表示されるバブルが多くなるほど、数値カラムの平均に対する信頼性が低くなります。たとえばovercastという名義インスタンスにはレコードが4つしかないため、バブルが左軸近くに表示されます。レコードが4つだけの平均は信頼できません。データクオリティに関する問題の検出時に、これらのバブルが疑わしい値を示すことがあります。

チャートの上部や下部の近くにバブルがある場合は、データクオリティに問題があることも考えられます。平均気温があまりに高かったり低かったりする場合は、気温測定が悪い可能性があります。

バブルのサイズは、NULL数値の個数を表します。間隔カラムに表示されるNULL値が多くなると、バブルはさらに大きくなります。

名義カラムが複数選択される場合は、この分析でカラムの順序が重要な役目を果たします。平均気温と天候は、同一色のバブル群が表示されます。平均気温とその他の名義カラムのレコードは、他のバブル群で表示されます。