Analyse de corrélation numérique - 6.3

Talend MDM Platform Studio Guide utilisateur

EnrichVersion
6.3
EnrichProdName
Talend MDM Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce type d'analyse identifie les corrélations entre des colonnes de type nominal et de type intervalle et affiche les résultats sous forme d'un graphique à bulles.

Un graphique à bulles est créé pour chaque colonne numérique sélectionnée. Dans un graphique à bulles, chaque bulle représente un enregistrement distinct de la colonne nominale. Par exemple, une colonne nominale nommée outlook (prévisions) avec trois instances nominales distinctes : sunny (ensoleillé) (11 enregistrements), rainy (pluvieux) (16 enregistrements) et overcast (couvert) (4 enregistrements) génèrera un graphique à bulles avec trois bulles.

La deuxième colonne de cet exemple est la colonne temperature où la température est exprimée en degrés Celsius. L'analyse dans cet exemple affichera une corrélation entre les colonnes outlook et temperature et affichera les résultats dans un graphique à bulles. L'axe vertical représente la moyenne de la colonne numérique, et l'axe horizontal représente le nombre d'enregistrements de chaque instance nominale. La température moyenne sera de 23.273 degrés Celsius pour les instances "sunny" (ensoleillées), 7.5 degrés Celsius pour les instances "rainy" (pluvieuses) et 18.5 degrés Celsius pour les instances "overcast" (couvertes).

Vous devez faire attention à deux choses dans un tel graphique : la position des bulles et leur taille.

Habituellement, les bulles les plus à l'extérieur doivent être étudiées plus longuement. Plus une bulle est proche de l'axe de gauche, moins vous pouvez avoir confiance en la moyenne de la colonne numérique. Par exemple, l'instance nominale overcast a seulement quatre enregistrements, la bulle est donc proche de l'axe de gauche. Vous ne pouvez être sûr de la moyenne avec seulement quatre enregistrements. Lorsque vous cherchez des problèmes de qualité de données, ces bulles peuvent indiquer des valeurs problématiques.

Les bulles proches du haut du graphique et celle proches du bas du graphique peuvent également indiquer des problèmes liés à la qualité de données. Une température moyenne trop basse ou trop élevée peut indiquer une mauvaise mesure de la température.

La taille de la bulle représente le nombre de toutes les valeurs numériques. Plus il y a de valeurs null dans les colonnes intervalles, plus grosse sera la bulle.

Lorsque plusieurs colonnes nominales sont sélectionnées, l'ordre des colonnes joue un rôle crucial dans cette analyse. Une série de bulles (d'une seule couleur) est affichée pour la température moyenne et le temps. Une autre série de bulles est affichée pour la température moyenne et chaque enregistrement de toute autre colonne nominale.