Überprüfen der Qualitätsindikatoren Ihrer Daten - Cloud

Einführungshandbuch für Talend Cloud Data Inventory

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Data Inventory
Content
Administration und Überwachung > Verwaltung von Verbindungen
Data Governance
Datenqualität und Datenaufbereitung > Anreicherung von Daten
Datenqualität und Datenaufbereitung > Identifizierung von Daten
Last publication date
2024-03-26

Auf der Seite Overview (Übersicht) erhalten Sie einen Eindruck von der Gesamtqualität des Datensatzes. Sie können sich jedoch auch präzisere Indikatoren ansehen.

Die Kachel Data quality (Datenqualität) hat Ihnen einen Eindruck von der Qualität auf Datensatzebene vermittelt. Jetzt öffnen Sie das Datensatz-Sample, um die Qualität auf Eintragsebene zu betrachten.

In der Anwendung werden Daten anhand des für eine Spalte automatisch erkannten semantischen Typs mit dem folgenden Farbcode als leer, gültig oder ungültig kategorisiert:

  • Grün für Daten, die dem Spaltenformat entsprechen.
  • Rot für Daten, die dem Spaltenformat nicht entsprechen.
  • Schwarz für leere Zellen.

Prozedur

  1. Klicken Sie im Menü im linken Fensterbereich auf das Symbol Sample.
    Der Datensatz wird in einem Rasterformat geöffnet und alle 100 Zeilen werden in tabellarischer Form angezeigt. Die maximale Sample-Größe in Talend Cloud Data Inventory beträgt 10.000 Dateneinträge. Das Sample zeigt die CSV standardmäßig in einer Rasteransicht. Bei anderen Dateitypen oder je nach Ihren Präferenzen können Sie das Sample jedoch auch in einer hierarchischen oder Rohansicht anzeigen.
    Auszug aus dem Datensatz.
  2. Im Header über dem Datensatz befinden sich die gleichen Kreisdiagramme wie in der Übersicht, die auf den Anteil der ungültigen, leeren und gültigen Werte im gesamten Datensatz verweisen.
    Header über dem Datensatz.
  3. Sehen Sie sich die Überschriften der einzelnen Spalten an.
    Bei Verwendung der Rasteransicht des Datensatzes ist in jede Spaltenüberschrift eine Qualitätsleiste integriert. Die hier angezeigten Statistiken gelten für jede einzelne Spalte.
  4. Zeigen Sie mit der Maus auf jede Farbe in der Qualitätsleiste der Spalte production_country (Herstellungsland), um die detaillierte Statistik für diese spezifische Spalte anzuzeigen.
    Wenn der Mauszeiger über den grünen Teil der Qualitätsleiste gehalten wird, ist zu sehen, dass 91 % der Werte gültig sind.
    Sie können sehen, dass die Spalte 8 Zellen enthält, die nicht mit dem Sematiktyp Country (Land) übereinstimmen, 1 leere Zelle und 91 gültige Zellen. In der Rasteransicht werden Zellen, die ungültige Werte enthalten, mit einem roten linken Rand angezeigt.

Ergebnisse

Sie haben den Anteil von leeren, ungültigen und gültigen Einträgen im gesamten Datensatz sowie in jeder Spalte überprüft. Die meisten Spalten enthalten mindestens einige leere Einträge, aber nur die Spalten popularity (Beliebtheit), production_country (Herstellungsland) und original_language (Originalsprache) enthalten darüber hinaus ungültige Werte. Für eine dieser Spalten könnte das Qualitätsproblem auf einen semantischen Typ zurückzuführen sein.