Filtern der Kundendaten nach gültigen und ungültigen semantischen Typen - Cloud

Prozessorhandbuch für Talend Cloud Pipeline Designer

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Design und Entwicklung > Konzeption von Pipelines

Vorbereitungen

  • Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.

    In diesem Beispiel eine Testverbindung.

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    In diesem Beispiel eine Kundenliste mit Rohdaten, die Sie als Anhang zu diesem Dokument finden (laden Sie die Datei emantic_filter-customers.csv über die Registerkarte Downloads im linken Bereich dieser Seite herunter).

  • Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.

    Die Dateien werden ebenfalls in zwei Test-Datensätzen gespeichert.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Filtern der Kundendaten nach semantischem Typ
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie Ihre Quelldaten ausgewählen können, in diesem Fall eine Kundenliste mit Rohdaten (inkonsistente Feldnamen, leere Felder usw.) und im Vorfeld ermittelte semantische Typen.

    Example

  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie den Datensatz um, falls erforderlich.
  5. Klicken Sie auf und fügen Sie einen Prozessor vom Typ Field selector (Feldauswahl) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  6. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    restructure fields (Felder neu strukturieren)
  7. Führen Sie auf der Registerkarte Configuration (Konfiguration) Folgendes durch:
    1. Klicken Sie auf das Symbol im Auswahlmodus Simple (Einfach), um die Baumstrukturansicht zu öffnen, in der Sie die Felder auswählen und umbenennen können, die Sie beibehalten möchten.
    2. Wählen Sie in der Baumstrukturansicht folgende Felder aus: ID, FIRSTNAME (VORNAME), LASTNAME (NACHNAME), STATE (BUNDESSTAAT), company_name (Firmen_Name) und EMAIL.
    3. Klicken Sie auf das jeweils nebenstehende Symbol und benennen Sie die Felder um: ID, Firstname (Vorname), Lastname (Nachname), State (Bundesstaat), CompanyName (Firmenname) und Email.
  8. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor dem Auswahl- und Umbenennungsvorgang mit denjenigen nach dem Vorgang zu vergleichen.

  9. Klicken Sie auf und fügen Sie einen Prozessor vom Typ Semantic filter (Semantischer Filter) zur Pipeline hinzu. Das Konfigurationsfenster wird geöffnet.
  10. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    filter on valid US phones and emails (Nach gültigen US-Telefonnummern und -E-Mailadressen filtern)
  11. Führen Sie im Bereich Filters (Filter) Folgendes durch:
    1. Wählen Sie .PhoneNumber (.Telefonnummer) in der Liste Input (Eingabe) aus, da Sie dieses Feld nach dem damit verknüpften semantischen Typ filtern möchten: Phone numbers (Telefonnummern).
    2. Wählen Sie VALID (GÜLTIG) in der Liste Keep only (Nur beibehalten), um nach dem Vergleich der Werte mit dem semantischen Typ „Phone numbers (Telefonnummern)“ nur die gültigen Werte beizubehalten.
    3. Fügen Sie einen anderen Filter hinzu und wählen Sie .Email (.E-Mail) in der Liste Input (Eingabe) aus, da Sie dieses Feld nach dem damit verknüpften semantischen Typ filtern möchten: Email (E-Mail).
    4. Wählen Sie VALID (GÜLTIG) in der Liste Keep only (Nur beibehalten), um nach dem Vergleich der Werte mit dem semantischen Typ „Email (E-Mail)“ nur die gültigen Werte beizubehalten.
  12. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor dem Filtervorgang mit denjenigen nach dem Vorgang zu vergleichen: Sie werden feststellen, dass ein Dateneintrag einen ungültigen E-Mail-Wert enthält (das Zeichen @ fehlt in der E-Mailadresse) und zwei Dateneinträge ungültige Telefonnummer-Werte aufweisen (fehlende Ziffern), wenn die Einträge mit den zugehörigen semantischen Typen verglichen werden.

  13. Klicken Sie auf das Element ADD DESTINATION (ZIEL HINZUFÜGEN) hinter dem Prozessor des Typs Semantic filter (Semantischer Filter) und wählen Sie den Datensatz aus, der die Daten aufnehmen soll, die den Filterkriterien entsprechen: die Daten mit gültigen Werten.
    Benennen Sie den Datensatz um, falls erforderlich.
  14. Klicken Sie auf die Schaltfläche des Prozessors Semantic filter (Semantischer Filter) und dann auf das Element ADD DESTINATION (ZIEL HINZUFÜGEN) und wählen Sie den Datensatz aus, der die zurückgewiesenen Daten aufnehmen soll: die Daten mit ungültigen Werten.
  15. Legen Sie für das Ziel einen aussagekräftigen Namen fest.

    Example

    invalid customer data (Ungültige Kundendaten)
  16. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  17. Wählen Sie in Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter Ausführungsprofile) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Die Pipeline wird ausgeführt, die Daten werden gemäß den von Ihnen ausgewählten semantischen Typen gefiltert und die Ausgabe-Flows werden an die von Ihnen angegebenen Ziele gesendet.

Nächste Maßnahme

Sie können die ungültigen Datenelemente jedoch auch an eine Data Stewardship-Kampagne als Ziel senden. Dadurch können Data Stewards die ungültigen Daten prüfen und berichtigen.