Generieren von Testkundendaten und Verarbeiten dieser Daten - Cloud

Handbuch für Talend Cloud-Anwendungskonnektoren

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
Administration und Überwachung > Verwaltung von Verbindungen
Design und Entwicklung > Konzeption von Pipelines
Last publication date
2024-03-26

Prozedur

  1. Klicken Sie auf Connections (Verbindungen) > Add connection (Verbindung hinzufügen).
  2. Wählen Sie den Typ der zu erstellenden Verbindung im daraufhin geöffneten Fenster aus.

    Example

    data generator (Datengenerator)
  3. Wählen Sie in der Liste Engine Ihre Engine aus.
    Anmerkung:
    • Es wird empfohlen, die Remote Engine Gen2 und nicht die Cloud Engine for Design für eine erweiterte Datenverarbeitung einzusetzen.
    • Wenn keine Remote Engine Gen2 in Talend Management Console erstellt wurde bzw. diese vorhanden, aber als nicht verfügbar markiert ist, d. h. sie ist nicht aktiv und wird nicht ausgeführt, dann können Sie weder einen Connection type (Verbindungstyp) in der Liste auswählen noch die neue Verbindung speichern.
    • Die Liste der verfügbaren Verbindungstypen richtet sich nach der ausgewählten Engine.
  4. Wählen Sie den Typ der zu erstellenden Verbindung aus.
    Wählen Sie Data generator (Datengenerator) aus.
  5. Klicken Sie auf Add dataset (Datensatz hinzufügen) und geben Sie die Datensatzeigenschaften wie in Eigenschaften des Datengenerators beschrieben ein.
  6. Geben Sie im Fensterbereich Add a new dataset (Neuen Datensatz hinzufügen) einen Namen für Ihren Datensatz ein.

    Example

    customer generated data (Vom Benutzer generierte Daten)
  7. Geben Sie die Eigenschaften ein, um die Testkundendaten Ihrer Wahl zu generieren. In diesem Beispiel:
    1. Geben Sie im Feld Rows (Zeilen) den Wert 100 ein, da Sie 100 Testdatensätze generieren möchten.
    2. Klicken Sie in das Feld Add (Hinzufügen), geben Sie firstname (Vorname) in das Feld Name des Elements ein, wählen Sie First Name (Vorname) in der Liste Type (Typ) aus und geben Sie 0 in das Feld Blank % (Leer %) ein, da Sie Vornamen nach dem Zufallsprinzip ohne leere Felder generieren möchten.
    3. Klicken Sie in das Feld Add (Hinzufügen), geben Sie lastname (Nachname) in das Feld Name des Elements ein, wählen Sie Last Name (Nachname) in der Liste Type (Typ) aus und geben Sie 0 in das Feld Blank % (Leer %) ein, da Sie Nachnamen nach dem Zufallsprinzip ohne leere Felder generieren möchten.
    4. Klicken Sie in das Feld Add (Hinzufügen), geben Sie age (Alter) in das Feld Name des Elements ein, wählen Sie Age (Alter) in der Liste Type (Typ) aus, geben Sie 18 in das Feld Min ein und 99 in das Feld Max und dann 0 in das Feld Blank % (Leer %), da Sie nach Alter zwischen 18 und 99 ohne leere Felder generieren möchten.
    5. Klicken Sie in das Feld Add (Hinzufügen), geben Sie hair_color (Haarfarbe) in das Feld Name des Elements ein, wählen Sie Random within list (Willkürlich in Liste) in der Liste Type (Typ) aus und geben Sie 0 in das Feld Blank % (Leer %) ein. Fügen Sie Elemente zu der willkürlichen Werteliste hinzu, die Sie erstellen möchten. In diesem Fall verschiedene Haarfarben und Körpergewichte.
    6. Geben Sie brown (braun) in das erste Feld Element und 0.4 in das Feld Weight (Gewicht), blond in das zweite Feld Element und 0.2 in das Feld Weight (Gewicht) und dann red (rot) in das dritte Feld Element und 0.4 in das Feld Weight (Gewicht) ein, da Sie Felder mit Haarfarbe generieren möchten, die 40 % braunes, 20 % blondes und 40 % rotes Haar enthalten.
    7. Klicken Sie in das Feld Add (Hinzufügen), geben Sie email (E-Mail) in das Feld Name des Elements ein, wählen Sie Email (E-Mail) in der Liste Type (Typ) aus und geben Sie 20 in das Feld Blank % (Leer %) ein, da Sie E-Mailadressen nach dem Zufallsprinzip mit 20 % leeren Feldern generieren möchten.
    8. Klicken Sie in das Feld Add (Hinzufügen), geben Sie phone (Telefon) in das Feld Name des Elements ein, wählen Sie Phone number (ext) (Telefon (Durchwahl)) in der Liste Type (Typ) aus und geben Sie 0 in das Feld Blank % (Leer %) ein, da Sie Telefonnummern nach dem Zufallsprinzip ohne leere Felder generieren möchten.
    9. Klicken Sie auf Validate (Validieren), um den Datensatz zu speichern. In der Datensatz-Detailansicht können Sie die generierten Daten anzeigen, die den von Ihnen vorgegebenen Kriterien entsprechen.
  8. Fügen Sie zwei Testdatensätze hinzu, die als Ziel in Ihrer Pipeline verwendet werden sollen. Geben Sie die Verbindungseigenschaften gemäß der Beschreibung in Eigenschaften der Testverbindung ein.
  9. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  10. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Clean, format & sort customer generated data (Vom Kunden generierte Daten bereinigen, formatieren und sortieren)
  11. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN) und wählen Sie im daraufhin geöffneten Fenster Ihren Quelldatensatz aus, customer generated data (Vom Kunden generierte Daten).
  12. Klicken Sie auf und fügen Sie einen Prozessor vom Typ Field concatenator (Feldkonkatenation) zur Pipeline hinzu. Geben Sie ihm einen aussagekräftigen Namen, z. B. concatenate names (Namen konkatenieren), und verwenden Sie die Funktion Concatenate with value/another field (Mit Wert/anderem Feld konkatenieren), um die Felder firstname (Vorname) und lastname (Nachname) miteinander zu verketten.
  13. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Alle Vor- und Nachnamen werden jetzt mit einer Leerstelle als Trennzeichen miteinander verknüpft.

  14. Klicken Sie auf und fügen Sie einen Prozessor vom Typ Data cleansing (Datenbereinigung) zur Pipeline hinzu. Geben Sie ihm einen aussagekräftigen Namen, z. B. fill empty emails with N/A (Leere E-Mailadressen mit N/A ausfüllen), und verwenden Sie die Funktion Fill empty cells with text (Leere Zellen mit Text füllen), um die leeren email (E-Mail)-Werte mit dem Text N/A zu füllen.
  15. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Alle leeren E-Mailfelder werden jetzt durch N/A ersetzt.

  16. Klicken Sie auf und fügen Sie einen Prozessor vom Typ Phones (Telefonnummern) zur Pipeline hinzu. Geben Sie ihm einen aussagekräftigen Namen, z. B. format customer phones (Kundentelefonnummern formatieren), und verwenden Sie die Funktion Format phone number (Telefonnummer formatieren), um die generierten Telefonnummernfelder mit der richtigen US-amerikanischen Standardsyntax zu formatieren.
  17. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Alle Telefonnummernwerte werden jetzt formatiert.

  18. Klicken Sie auf und fügen Sie einen Filter-Prozessor zur Pipeline hinzu. Geben Sie ihm einen aussagekräftigen Namen, z. B. sort customers by age (Kunden nach Alter sortieren), und verwenden Sie den Operator <= mit dem Wert 35, um die Kunden nach Alter zu untergliedern (unter oder über 35 Jahren).
  19. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    In dieser Vorschau entsprechen 10 Einträge den von Ihnen vorgegebenen Kriterien (unter 35 Jahren).

  20. Klicken Sie auf das Element ADD DESTINATION (ZIEL HINZUFÜGEN) hinter dem Filter-Prozessor und wählen Sie den Datensatz aus, der die Daten aufnehmen soll, die den Filterkriterien entsprechen.
    Benennen Sie den Datensatz um, falls erforderlich.
  21. Klicken Sie auf die Schaltfläche des Filter-Prozessors und wählen Sie den Datensatz aus, der die zurückgewiesenen Daten aufnehmen soll.
    Benennen Sie den Datensatz um, falls erforderlich.
  22. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  23. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt, die 100 generierten Testfelder werden verarbeitet und die Ausgabe-Flows an die von Ihnen festgelegten Testdatensätze gesendet. Den Log können Sie entnehmen, dass die Daten in Kunden unter 35 Jahren und Kunden über 35 Jahren untergliedert wurden.