Vérifier la qualité de vos données - Cloud

Guide de prise en main de Talend Cloud Data Inventory avec Snowflake

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
Gouvernance de données

La page Overview (Vue d'ensemble) vous permet d'avoir une idée générale de la qualité de votre jeu de données, mais il existe des indicateurs plus précis.

La tuile Data quality (Qualité de données) vous donne une idée de la qualité au niveau du jeu de données. Vous allez maintenant accéder à la page Sample (Échantillon) pour étudier la qualité au niveau des enregistrements.

Dans l'application, les données peuvent être classées en catégories, comme vides, valides ou invalides, par rapport au type sémantique automatiquement détecté, avec le code couleur suivant :

  • vert pour les données qui correspondent au format de la colonne,
  • orange pour les données qui ne correspondent pas au format de la colonne,
  • noir pour les cellules vides.

Procédure

  1. Cliquez sur l'icône Sample (Échantillon) dans le menu de gauche.
    Votre jeu de données s'ouvre sous la forme d'une grille et ses 10 000 premières lignes s'affichent sous forme de tableau. Par défaut, l'échantillon affiche une vue en grille de votre jeu de données JDBC. Pour les autres formats de fichiers ou en fonction de vos préférences, l'échantillon s'affiche soit dans une vue hiérarchique, soit dans une vue brute.
  2. Dans l'en-tête au-dessus du jeu de données, vous pouvez trouver les mêmes diagrammes circulaires que dans la vue d'ensemble, affichant la répartition des valeurs vides, valides et non valides dans tout le jeu de données.
  3. Regardez les en-têtes de chacune des colonnes.
    Lorsque vous utilisez la vue tabulaire de votre jeu de données, chaque en-tête de colonne contient une barre de statistiques. Les statistiques affichées ici s'appliquent à chaque colonne spécifique.
  4. Placez votre curseur sur chaque couleur de la barre de statistiques de la colonne de votre choix pour afficher les statistiques détaillées de cette colonne.

    Vous pouvez voir que cette colonne contient X cellules ne correspondant pas au type sémantique détecté pour la colonne, X cellules vides et X cellules valides. Dans la vue tabulaire, les cellules contenant des valeurs invalides sont affichées avec une bordure gauche orange.

    Le type sémantique de la colonne peut être modifié à tout moment afin de correspondre plus précisément au contenu de la colonne et réduire le nombre de valeurs invalides.

Résultats

Vous venez de vérifier la répartition des enregistrements vides, non valides et valides du jeu de données, ainsi que de chacune des colonnes.