Vorbereitungen
-
Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.
-
Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.
In diesem Beispiel eine hierarchische Liste mit Kundendaten, d. h. ID und Produktinformationen wie z. B. Buchtitel und Preis usw., die Sie als Anhang zu diesem Dokument finden (laden Sie die Datei aggregate-customers.json über die Registerkarte Downloads im linken Bereich dieser Seite herunter).
-
Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.
In diesem Beispiel eine in HDFS gespeicherte Datei.
Prozedur
-
Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
-
Legen Sie einen sinnvollen Namen für die Pipeline fest.
Example
Aggregate Average Purchase Price (Durchschnittl. Kaufpreis aggregieren)
-
Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten, in diesem Fall eine Liste mit hierarchischen Kundendaten zu Buchkäufen, auswählen können.
Example
-
Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
Benennen Sie den Datensatz um, falls erforderlich.
-
Klicken Sie auf
und fügen Sie einen Prozessor vom Typ Aggregate (Aggregieren) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
-
Geben Sie einen sinnvollen Namen für den Prozessor an.
Example
calculate average price (Durchschnittspreis berechnen)
-
Klicken Sie im Bereich Group by (Gruppieren nach) auf das Papierkorb-Symbol neben dem leeren Feld, um dieses zu entfernen, da sämtliche Datenelemente in einem einzelnen Datensatz aggregiert werden sollen.
-
Führen Sie im Bereich Operations (Operationen) Folgendes durch:
-
Wählen Sie .product.price (.Produkt.Preis) in der Liste Field path (Feldpfad) und Average (Durchschnitt) in der Liste Operation aus, um den Durchschnittspreis aller von den Kunden gekauften Bücher zu gruppieren.
-
Geben Sie dem generierten Feld (Output field name (Name des Ausgabefelds)) einen Namen, z. B. avgPrice (Durchschnittspreis).
-
Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
Nach der Durchführung der Aggregation können Sie eine Vorschau der berechneten Daten anzeigen: Der durchschnittliche Buchpreis beträgt 13,96 Dollar.
-
Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) für die Pipeline, um das Fenster zur Auswahl des Datensatzes zu öffnen, der Ihre Ausgabedaten (HDFS) aufnehmen soll.
Benennen Sie den Datensatz um, falls erforderlich.
-
Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
-
Wählen Sie in Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter Ausführungsprofile) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.
Ergebnisse
Ihre Pipeline wird ausgeführt, der durchschnittliche Buchpreis in einem einzelnen Datensatz aggregiert und der Ausgabe-Flow an die von Ihnen angegebenen Zielsysteme gesendet.