Qualité des jeux de données - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données

Plusieurs indicateurs visuels vous permettent d'avoir une idée précise de la qualité de vos données.

Les indicateurs de qualité sont un moyen simple et rapide d'évaluer la qualité de vos données, au niveau des échantillons, ainsi qu'au niveau des enregistrements. Dans l'application, les données peuvent être classées en catégories, comme invalides, vides ou valides, par rapport :
  • au type sémantique de la colonne,
  • aux règles de qualité de données appliquées à un champ ou plusieurs champs.
Le code couleur est le suivant :
Couleur Description
Rouge Les valeurs ne correspondent pas au format des colonnes ou remplissent la condition, mais pas l'expression de validation, ou la règle ne peut être exécutée sur ces valeurs. Par exemple, si une règle doit comparer une chaîne de caractères et un nombre. Pour plus d'informations concernant les erreurs, cliquez sur la barre verticale rouge près de la valeur.
Gris Les cellules sont vides ou les valeurs ne sont pas applicables pour la règle. Elles ne remplissent pas la condition et aucune expression de validation alternative n'a été définie
Vert Les valeurs correspondent au format de la colonne ou elles répondent à toutes les instructions de règles.

Les indicateurs de qualité se trouvent aux emplacements suivants :

  • Dans la liste des jeux de données :

    La qualité de vos jeux de données s'affiche sous forme d'une barre de statistiques. Placez votre curseur sur une couleur pour afficher les statistiques de qualité du jeu de données. Ce pourcentage, ainsi que le nombre exact de valeurs invalides, vides, ou valides sont affichés pour l'échantillon.

  • Depuis la vue d'ensemble du jeu de données :

    Dans la tuile Data quality (Qualité de données) de la vue d'ensemble du jeu de données, vous pouvez voir des diagrammes en barres indiquant le pourcentage exact et le nombre de valeurs vides, valides et invalides dans l'échantillon du jeu de données. Chaque catégorie s'affiche dans un diagramme dédié.

  • Depuis l'en-tête de l'échantillon du jeu de données :

    Dans l'en-tête au-dessus de votre jeu de données, vous pouvez également trouver les diagrammes en barres affichant la répartition des valeurs invalides, vides et valides dans l'échantillon du jeu de données. Chaque catégorie s'affiche dans un diagramme dédié. Placez votre curseur sur un diagramme pour voir les statistiques détaillées.

  • Dans la barre de statistiques :
    Lorsque vous utilisez la vue tabulaire de votre jeu de données, vous pouvez voir que chaque en-tête de colonne contient une barre de statistiques. Les statistiques affichées ici s'appliquent à chaque colonne spécifique. Placez votre curseur sur chaque couleur pour voir les statistiques détaillées de chaque catégorie. Dans la vue tabulaire, les cellules contenant des valeurs invalides par rapport au type sémantique de la colonne sont affichées avec une barre verticale rouge. Cliquez sur cette barre pour obtenir plus d'informations concernant la valeur invalide.