Replizieren einer Liste mit Leads und unterschiedliches Verarbeiten der zwei Ausgabe-Flows - Cloud

Prozessorhandbuch für Talend Cloud Pipeline Designer

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Design und Entwicklung > Konzeption von Pipelines
Last publication date
2024-02-29

Eine Pipeline mit einer Quelle, einem Prozessor vom Typ „Replicate (Replizieren)“, einem Prozessor vom Typ „Filter“ und zwei Zielen.

Vorbereitungen

  • Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.

    In diesem Beispiel eine Verbindung zu einer Datenbank.

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    Laden Sie folgende Datei herunter und extrahieren Sie sie: filter-python-customers.zip. Sie enthält Lead-Daten, u. a. ID, Name, Umsatz usw.

  • Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.

    In diesem Beispiel eine in Amazon S3 und eine in HDFS gespeicherte Datei.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Replicate and Process Leads (Leads replizieren und verarbeiten)
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten, in diesem Fall eine Liste mit Leads, auswählen können.
  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  5. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Replicate (Replizieren) zur Pipeline hinzu. Daraufhin wird der Flow dupliziert und das Konfigurationsfenster geöffnet.
  6. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    replicate leads (Leads duplizieren)
  7. Klicken Sie auf das oberste Element ADD DESTINATION (ZIEL HINZUFÜGEN) für die Pipeline, um das Fenster zur Auswahl des Datensatzes zu öffnen, der Ihre Daten in der Cloud aufnehmen soll (Amazon S3).
  8. Legen Sie für das Ziel einen aussagekräftigen Namen fest.

    Example

    store in cloud (In Cloud speichern)
  9. Klicken Sie auf Plus neben dem untersten Element ADD DESTINATION (ZIEL HINZUFÜGEN) für die Pipeline und fügen Sie einen Prozessor vom Typ Filter hinzu.
  10. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    filter on lead revenues (Einkommen der Leads filtern)
  11. Führen Sie im Bereich Filters (Filter) Folgendes durch:
    1. Wählen Sie .Revenue (Einkommen) in der Liste Input (Eingabe) aus, da Sie die Leads basierend auf diesem Wert filtern möchten.
    2. Wählen Sie None (Keine) in der Liste Optionally select a function to apply (Optional eine anzuwendende Funktion auswählen) aus, da bei der Filterung der Datensätze keine Funktion angewendet werden soll.
    3. Wählen Sie >= in der Liste Operator aus und geben Sie 70000 in die Liste Value (Wert) ein, um die Leads mit einem Einkommen über 70000 Dollar auszufiltern.
  12. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  13. (Optional) Sehen Sie sich die Vorschau des Prozessors vom Typ Filter an, um zu prüfen, wie Ihre Daten nach der Filterung aussehen.

    Example

    Vorschau des Prozessors vom Typ „Filter“ nach dem Filtern von Datensätzen mit Einkommen von mehr als 70000 Dollar.
  14. Klicken Sie auf das unterste Element ADD DESTINATION (ZIEL HINZUFÜGEN) für die Pipeline, um das Fenster zur Auswahl des Datensatzes zu öffnen, der Ihre Daten vor Ort aufnehmen soll (HDFS), und geben Sie ihm einen aussagekräftigen Namen.

    Example

    store on premises (On Premise speichern)
  15. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  16. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt, die Datensätze werden dupliziert und gefiltert und die Ausgabe-Flows an die von Ihnen angegebenen Zielsysteme gesendet.