Auf der Seite Overview (Übersicht) erhalten Sie einen Eindruck von der Gesamtqualität des Datensatzes. Sie können sich jedoch auch präzisere Indikatoren ansehen.
Die Kachel Data quality (Datenqualität) hat Ihnen einen Eindruck von der Qualität auf Datensatzebene vermittelt. Jetzt öffnen Sie das Datensatz-Sample, um die Qualität auf Eintragsebene zu betrachten.
In der Anwendung werden Daten anhand des für eine Spalte automatisch erkannten semantischen Typs mit dem folgenden Farbcode als leer, gültig oder ungültig kategorisiert:
- Grün für Daten, die dem Spaltenformat entsprechen.
- Rot für Daten, die dem Spaltenformat nicht entsprechen.
- Schwarz für leere Zellen.
Prozedur
-
Klicken Sie im Menü im linken Fensterbereich auf das Symbol Sample.
Der Datensatz wird in einem Rasterformat geöffnet und alle 100 Zeilen werden in tabellarischer Form angezeigt. Die maximale Sample-Größe in
Talend Cloud Data Inventory beträgt 10.000 Dateneinträge. Das Sample zeigt die
CSV standardmäßig in einer Rasteransicht. Bei anderen Dateitypen oder je nach Ihren Präferenzen können Sie das Sample jedoch auch in einer hierarchischen oder Rohansicht anzeigen.
-
Im Header über dem Datensatz befinden sich die gleichen Kreisdiagramme wie in der Übersicht, die auf den Anteil der ungültigen, leeren und gültigen Werte im gesamten Datensatz verweisen.
-
Sehen Sie sich die Überschriften der einzelnen Spalten an.
Bei Verwendung der Rasteransicht des Datensatzes ist in jede Spaltenüberschrift eine Qualitätsleiste integriert. Die hier angezeigten Statistiken gelten für jede einzelne Spalte.
-
Zeigen Sie mit der Maus auf jede Farbe in der Qualitätsleiste der Spalte production_country (Herstellungsland), um die detaillierte Statistik für diese spezifische Spalte anzuzeigen.
Sie können sehen, dass die Spalte 8 Zellen enthält, die nicht mit dem Sematiktyp
Country
(Land) übereinstimmen, 1 leere Zelle und 91 gültige Zellen. In der Rasteransicht werden Zellen, die ungültige Werte enthalten, mit einem roten linken Rand angezeigt.
Ergebnisse
Sie haben den Anteil von leeren, ungültigen und gültigen Einträgen im gesamten Datensatz sowie in jeder Spalte überprüft. Die meisten Spalten enthalten mindestens einige leere Einträge, aber nur die Spalten
popularity (Beliebtheit),
production_country (Herstellungsland) und
original_language (Originalsprache) enthalten darüber hinaus ungültige Werte. Für eine dieser Spalten könnte das Qualitätsproblem auf einen semantischen Typ zurückzuführen sein.