Überprüfen der Datenqualität - Cloud

Einführungshandbuch für Talend Cloud Data Inventory mit Snowflake

Version
Cloud
Language
Deutsch (Deutschland)
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
Data Governance

Auf der Seite Overview (Übersicht) erhalten Sie einen Eindruck von der Gesamtqualität des Datensatzes. Sie können sich jedoch auch präzisere Indikatoren ansehen.

Die Kachel Data quality (Datenqualität) hat Ihnen einen Eindruck von der Qualität auf Datensatzebene vermittelt. Jetzt öffnen Sie das Datensatz-Sample, um die Qualität auf Eintragsebene zu betrachten.

In der Anwendung werden Daten anhand des für eine Spalte automatisch erkannten semantischen Typs mit dem folgenden Farbcode als leer, gültig oder ungültig kategorisiert:

  • Grün für Daten, die dem Spaltenformat entsprechen.
  • Orange für Daten, die dem Spaltenformat nicht entsprechen.
  • Schwarz für leere Zellen.

Prozedur

  1. Klicken Sie im Menü im linken Fensterbereich auf das Symbol Sample.
    Der Datensatz wird in einem Rasterformat angezeigt, und die ersten 10.000 Zeilen werden in tabellarischer Form angezeigt. Das Sample zeigt Ihren Snowflake-Datensatz standardmäßig in einer Rasteransicht. Bei anderen Dateitypen oder je nach Ihren Präferenzen können Sie das Sample jedoch auch in einer hierarchischen oder Rohansicht anzeigen.
  2. Im Header über dem Datensatz befinden sich die gleichen Balkendiagramme wie in der Übersicht, die auf den Anteil der ungültigen, leeren und gültigen Werte im gesamten Datensatz verweisen.
  3. Sehen Sie sich die Überschriften der einzelnen Spalten an.
    Bei Verwendung der Rasteransicht des Datensatzes ist in jede Spaltenüberschrift eine Qualitätsleiste integriert. Die hier angezeigten Statistiken gelten für jede einzelne Spalte.
  4. Zeigen Sie mit der Maus auf jede Farbe in der Qualitätsleiste einer beliebigen Spalte, um die detaillierte Statistik für diese spezifische Spalte anzuzeigen.

    In diesem Beispiel können Sie sehen, dass die Spalte X Zellen enthält, die nicht mit dem für die Spalte erkannten Sematiktyp übereinstimmen, X leere Zellen und X gültige Zellen. In der Rasteransicht werden Zellen, die ungültige Werte enthalten, mit einem orangefarbenen linken Rand angezeigt.

    Der semantische Typ der Spalte kann jederzeit geändert werden, um mehr dem Inhalt der Spalte zu entsprechen und um die Anzahl der ungültigen Werte zu verringern.

Ergebnisse

Sie haben den Anteil von leeren, ungültigen und gültigen Einträgen im gesamten Datensatz sowie in jeder Spalte überprüft.