Qualité des jeux de données - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-04-16

Plusieurs indicateurs visuels vous permettent d'avoir une idée précise de la qualité de vos données.

Les indicateurs de qualité sont un moyen simple et rapide d'évaluer la qualité de vos données, au niveau des échantillons, ainsi qu'au niveau des enregistrements. Dans l'application, les données peuvent être classées en catégories, comme invalides, vides ou valides, par rapport :
  • au type sémantique de la colonne,
  • aux règles de qualité de données appliquées à un champ ou plusieurs champs.
Conseil : Si vous utilisez une connexion à Snowflake, vous pouvez utiliser le paramètre pushdown pour calculer la qualité du jeu de données sur le jeu de données entier. Pour plus d'informations, consultez Ajouter le paramètre pushdown à une connexion Snowflake.
Code couleur pour les barres de statistiques
Couleur Description
Rouge Les valeurs ne correspondent pas au format des colonnes ou remplissent la condition, mais pas l'expression de validation, ou la règle ne peut être exécutée sur ces valeurs. Par exemple, si une règle doit comparer une chaîne de caractères et un nombre. Pour plus d'informations concernant les erreurs, cliquez sur la barre verticale rouge près de la valeur.
Gris Les cellules sont vides ou les valeurs ne sont pas applicables pour la règle. Elles ne remplissent pas la condition et aucune expression de validation alternative n'a été définie
Vert Les valeurs correspondent au format de la colonne ou elles répondent à toutes les instructions de règles.

Les indicateurs de qualité se trouvent aux emplacements suivants :

  • Dans la liste des jeux de données :
    Un jeu de données nommé 'customers' affiche une barre de statistiques avec 1.8 % de valeurs vides.

    La qualité de vos jeux de données s'affiche sous forme d'une barre de statistiques. Placez votre curseur sur une couleur pour afficher les statistiques de qualité du jeu de données. Ce pourcentage, ainsi que le nombre exact de valeurs invalides, vides, ou valides sont affichés pour l'échantillon.

  • Depuis la vue d'ensemble du jeu de données :
    Dans la tuile Data quality (Qualité de données) de la vue d'ensemble du jeu de données, vous pouvez voir des diagrammes en barres indiquant le pourcentage exact et le nombre de valeurs vides, valides et invalides dans l'échantillon du jeu de données. Chaque catégorie s'affiche dans un diagramme dédié.
    Tuile de qualité de données affichant 1.1 % de valeurs invalides, 1.8 % de valeurs vides et 97.1 % de valeurs valides.

    Lorsque l'actualisation de l'échantillon échoue, un message d'erreur s'affiche dans la tuile. Pour plus d'informations, consultez (Problèmes lors de l'actualisation de l'échantillon).

    Dans la tuile Data quality (Qualité de données) de la vue d'ensemble du jeu de données, la barre de conformité vous indique le pourcentage exact et le nombre de valeurs invalides, non applicables et valides dans l'échantillon du jeu de données.
    Tuile des règles de qualité de données affichant deux règles avec leur barre de conformité.

    Si l'icône Warning l'icône d'avertissement ou l'icône Error l'icône d'erreur est affichée près du nom de la règle, consultez Issues in the Data quality rules tile or the dataset header (Problèmes dans la tuile Data quality rules (Règles de qualité de données) ou dans l'en-tête du jeu de données).

  • Depuis l'en-tête de l'échantillon du jeu de données :
    En-tête de l'échantillon du jeu de données affichant 1.1 % de valeurs invalides, 1.8 % de valeurs vides et 97.1 % de valeurs valides.

    Dans l'en-tête au-dessus de votre jeu de données, vous pouvez également trouver les diagrammes en barres affichant la répartition des valeurs invalides, vides et valides dans l'échantillon du jeu de données. Chaque catégorie s'affiche dans un diagramme dédié. Placez votre curseur sur un diagramme pour voir les statistiques détaillées.

  • Dans la barre de statistiques :
    Barre de statistiques de qualité du jeu de données affichant les enregistrements de numéros de téléphone avec 14.6 % de valeurs vides.
    Lorsque vous utilisez la vue tabulaire de votre jeu de données, vous pouvez voir que chaque en-tête de colonne contient une barre de statistiques. Les statistiques affichées ici s'appliquent à chaque colonne spécifique. Placez votre curseur sur chaque couleur pour voir les statistiques détaillées de chaque catégorie. Dans la vue tabulaire, les cellules contenant des valeurs invalides par rapport au type sémantique de la colonne sont affichées avec une barre verticale rouge. Cliquez sur cette barre pour obtenir plus d'informations concernant la valeur invalide.
    Le curseur de la souris passe sur un enregistrement de numéro de téléphone dans une vue Grille, avec une barre verticale rouge indiquant une valeur invalide.