Erstellen von Datenaufbereitungsversionen - Cloud

Nutzungshandbuch für Talend Cloud Data Preparation

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration und Überwachung > Verwaltung von Verbindungen
Datenqualität und Datenaufbereitung > Bereinigung von Daten
Datenqualität und Datenaufbereitung > Verwaltung von Datensätzen
Last publication date
2024-03-26

Im folgenden Beispiel führen Sie ein paar Datenaufbereitungsschritte mit Ihren Daten aus, erstellen zu zwei verschiedenen Zeitpunkten Versionen und erfahren, wie Sie zwischen Ihren Versionen umschalten sowie zum aktuellen Status Ihrer Datenaufbereitung zurückschalten können.

Der hier verwendete Datensatz enthält Kundendaten, d. h. Name, Tätigkeit, Telefonnummer und E-Mailadresse, muss jedoch bereinigt werden. In den Spalten mit den Kundennamen sind Inkonsistenzen bei der Formatierung, wie z. B. führende oder nachgestellte Leerzeichen, und inkonsistente Groß-/Kleinschreibung festzustellen. Zudem sind verschiedene Telefonnummern und E-Mailangaben ungültig.

Datensatz mit Kundendaten

Im Verlauf Ihrer Arbeit mit der Datenaufbereitung erstellen Sie zwei Versionen, die den Status der Datenaufbereitung zu zwei verschiedenen Zeitpunkten widerspiegeln.

Prozedur

  1. Klicken Sie auf die Überschrift der Spalte First_name (Name_Vorname) und dann bei gedrückt gehaltener Strg-Taste auf die Überschrift der Spalte Last_name (Name_Nachname).

    Damit wählen Sie den Inhalt der zwei Spalten aus.

  2. Wenden Sie die Funktionen Remove trailing and leading characters (Angehängte und führende Zeichen entfernen) und Change to title case (In 'Erster Buchstabe groß' ändern) an, um die Leerzeichen zu entfernen und die Groß-/Kleinschreibung zu vereinheitlichen.
    Angewendete Funktionen zum Entfernen angehängter und führender Zeichen und zur Änderung der Anfangs- in Großbuchstaben

    Das Entfernen der Formatierungsfehler bildet den ersten großen Schritt in Ihrer Datenaufbereitung, weshalb Sie eine Version erstellen, um diese Änderungen nachzuverfolgen.

  3. Klicken Sie auf die Schaltfläche Manage versions (Versionen verwalten) in der Header-Leiste.

    Der Bereich Functions (Funktionen) wird durch den Bereich Versions (Versionen) ersetzt. Dieser Bereich ist leer, da für die Datenaufbereitung noch keine Versionen vorhanden sind.

    Geöffneter Funktionsbereich

    Nur Benutzer von Talend Data Preparation, die über Administratorrechte verfügen, können neue Versionen über die Schaltfläche Manage versions (Versionen verwalten) hinzufügen. Andere Benutzer können nur die vorhandenen Versionen im schreibgeschützten Modus anzeigen.

  4. Klicken Sie auf die Schaltfläche Add version (Version hinzufügen).
  5. Geben Sie eine Kurzbeschreibung der Version in das entsprechende Feld ein, in diesem Beispiel Fixing formatting errors in names (Formatierungsfehler in Namen beheben), und klicken Sie dann auf Add version (Version hinzufügen).
    Geöffneter Versionsbereich

    Die Version wird jetzt im Bereich Versions (Versionen) mit einem Zeitstempel und der von Ihnen zuvor hinzugefügten Beschreibung angezeigt.

    Mit einer Versionsnummer geöffneter Versionsbereich
  6. Klicken Sie auf die Version, um im schreibgeschützten Modus auf sie zuzugreifen.

    Sie können Filter anwenden und die Daten durchlaufen, jedoch keine Funktionen mit ihnen ausführen.

  7. Um den schreibgeschützten Modus zu verlassen und die Aufbereitung Ihrer Daten wiederaufzunehmen, klicken Sie auf die Schaltfläche Switch to current state (In aktuellen Status wechseln) in der Header-Leiste.

    Sie befinden sich jetzt wieder im Bearbeitungsmodus.

  8. Um die restlichen ungültigen Einträge in den Spalten Phone (Telefon) und Email (EMail) zu bereinigen, klicken Sie auf das Menüsymbol in der oberen linken Ecke des Rasters und wählen Sie Display rows with invalid or empty values (Zeilen mit ungültigen oder leeren Werten anzeigen) aus.
  9. Wählen Sie im Bereich Functions (Funktionen) die Funktion Delete these filtered rows (Diese gefilterten Zeilen löschen) aus.
    Option zum Löschen der gefilterten Zeilen

    Alle ungültigen Werte werden aus dem Datensatz entfernt, und Sie erstellen eine andere Version, um diesen Status festzuhalten.

  10. Wiederholen Sie die Schritte 3 bis 5, um eine neue Version zu erstellen, geben Sie dieses Mal allerdings Removing all invalid values (Alle ungültigen Werte entfernen) als Beschreibung ein.

    Die zwei Versionen werden jetzt im Bereich Versions (Versionen) angegeben und können im schreibgeschützten Modus aufgerufen werden.

    Mit zwei Versionsnummern geöffneter Versionsbereich

Ergebnisse

Sie haben zwei Versionen Ihrer Datenaufbereitung erstellt, um deren Status in zwei verschiedenen Schritten des Bereinigungsvorgangs zu erfassen. Sie können eine dieser Versionen exportieren, sie in einem Talend-Job verwenden oder den aktuellen Status der Datenaufbereitung weiter bearbeiten.