Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Beheben von Fehlern mit Talend Cloud Data Preparation

Availability-noteBeta
Sie sind als Datenanalyset in der Finanzabteilung eines Unternehmens tätig und wurden beauftragt, die schlechte Qualität des Datensatzes customers_billing_dataset (Datensatz_Kundenfakturierung) zu untersuchen, für den man Ihnen eine Zugriffsberechtigung erteilt hat. Sie möchten sich die Daten direkt ansehen und eine neue Datenaufbereitung erstellen.

Prozedur

  1. Klicken Sie in der Liste Dataset (Datensatz) auf customers_billing_dataset (Datensatz_Kundenfakturierung), um die Detailansicht des Datensatzes zu öffnen.
    Das Talend Trust Score™-Diagramm vermittelt Ihnen bereits einen guten Überblick über Ihren Datensatz. Es zeigt einen Abwärtstrend in den letzten Tagen, d. h. die zuletzt in der Datenbank hinzugefügten Daten enthalten Fehler. Dies wird in der Kachel Data quality (Datenqualität) bestätigt, auf der ein bestimmter Prozentsatz an ungültigen und leeren Werten ausgewiesen wird.
    Detaillierte Ansicht von customers_billing_dataset mit Diagrammen und Qualitätsindikatoren.
  2. Um die Daten selbst zu prüfen, klicken Sie auf das Sample-Symbol im linken Menü.
    Die Daten werden in der Rasteransicht angezeigt. Sie können direkt die Diskrepanzen zwischen gültigen und ungültigen Werten in einigen Spalten ausmachen. Am auffälligsten ist die Spalte Billing_Country, die vollständige Adressen enthält, obwohl diese auf mehrere Spalten hätten aufgeteilt werden sollen.
    Beispielansicht des Datensatzes mit Fehlern, die in den Daten behoben werden müssen.
  3. Um eine neue Datenaufbereitung für diesen Datensatz zu starten und die Fehler zu berichtigen, kicken Sie auf die Schaltfläche Preparations (Datenaufbereitungen) > Add (Hinzufügen) in der oberen rechten Ecke des Fensters.
    Mauszeiger über der Schaltfläche Add preparation (Datenaufbereitung hinzufügen).

    Talend Cloud Data Preparation wird geöffnet, sodass Sie jetzt mit der Anwendung von Transformationsoperationen auf das Daten-Sample beginnen können.

  4. Wenden Sie die folgenden Funktionen an, um die Fakturierungsinformationen zu berichtigen:
    1. Die Funktion Split the text in parts (Text in Teile untergliedern) auf die Spalte Billing_Country (Fakturierung_Land), um sie in 4 Parts (Teile) mit , als Separator (Begrenzer) zu untergliedern.
    2. Die Funktion Remove trailing and leading characters (Angehängte und führende Zeichen entfernen) auf die Spalten Billing_Country_Split_2 (Fakturierung_Land_Teil_2), Billing_Country_Split_3 (Fakturierung_Land_Teil_3) und Billing_Country_Split_4 (Fakturierung_Land_Teil_4), um whitespaces (Leerzeichen) zu entfernen.
    3. Die Funktion Delete the rows that match (Übereinstimmende Zeilen löschen) auf die Spalte Billing_Country_Split_1 (Fakturierung_Land_Teil_1), und verwenden Sie den regulären Ausdruck (FR)|(US)|(GB) als Value (Wert).
    Die Daten in den vollständigen Adressen werden in neue Spalten untergliedert, die Sie ebenfalls bereinigt haben, um sicherzustellen, dass das richtige Format verwendet wird. Damit bleiben ausschließlich diejenigen Zeilen, die ursprünglich Fehler enthalten haben, wobei die Fakturierungsinformationen jetzt auf spezifische Spalten für Land, Bundesstaat, Stadt und Straße aufgeteilt sind.

Ergebnisse

Die Datenaufbereitung enthält jetzt bereinigte Daten, die zur Aktualisierung des Quelldatensatzes verwendet werden können.
Beispielansicht des Datensatzes mit verbesserter Datenqualität und Formatierung.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!