Vorbereitungen
-
Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.
In diesem Beispiel eine Testverbindung.
-
Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.
In diesem Beispiel eine hierarchische JSON-Datei mit einer Benutzerumfrage zu deren Geräten, d. h. Gerätetyp, Kaufdatum, IP-Adresse usw. (laden Sie die Datei data_shaping_language-devices.json über die Registerkarte Downloads im linken Bereich dieser Seite herunter).
-
Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.
In diesem Beispiel eine in einem S3-Bucket gespeicherte Datei.
Prozedur
-
Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
-
Legen Sie einen sinnvollen Namen für die Pipeline fest.
Example
Query and process a list of user devices (Liste der Benutzergeräte abfragen und verarbeiten)
-
Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten, in diesem Fall eine Umfrage zu Benutzergeräten mit hierarchischen Daten, auswählen können.
Example
-
Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
Benennen Sie den Datensatz um, falls erforderlich.
-
Klicken Sie auf
und fügen Sie einen Prozessor vom Typ Data Shaping Language (Data-Shaping-Sprache) zur Pipeline hinzu. Das Konfigurationsfenster wird geöffnet.
-
Geben Sie einen sinnvollen Namen für den Prozessor an.
Example
query recent devices (Letzte Geräte abfragen)
-
Geben Sie im Bereich Data Shaping Language (Data-Shaping-Sprache) Folgendes ein:
FROM devices AS dv
WHERE toDate(dv.purchase_date) > toDate("2015-01-01")
SELECT {
device_type = name,
purchase_date = dv.purchase_date,
ip_address = ip }
Dieser Code ermöglicht Ihnen Folgendes:
-
Definieren von dv
als Alias für die devices (Geräte)
-Datensätze
-
Ausfiltern der Geräte, die an einem Datum nach dem 1. Januar 2015 gekauft wurden
-
Umbenennen und Flatten einiger Datenelemente: name
(Name) wird zu device_type
(Gerätetyp), ip
zu ip_address
(IP-Adresse).
Weitere Informationen zur Syntax der Abfragesprache finden Sie in folgendem Handbuch: Referenzhandbuch für die Data-Shaping-Sprache.
-
Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
Die Vorschau ermöglicht die Visualisierung der neuen Struktur: Da die Struktur abgeflacht wurde, werden mehr Datenelemente ausgegeben und nur die nach dem 1. Januar 2015 gekauften Geräte angezeigt.
-
Klicken Sie auf
und fügen Sie einen Filter-Prozessor zur Pipeline hinzu. Das Konfigurationsfenster wird geöffnet.
-
Geben Sie einen sinnvollen Namen für den Prozessor an.
Example
keep records about phones (Datenelemente mit Telefonnummern beibehalten)
-
Führen Sie im Filterbereich Folgendes durch:
-
Wählen Sie .device_type (Gerätetyp) in der Liste Input (Eingabe) aus, da Sie die Kunden basierend auf diesem Wert filtern möchten.
-
Wählen Sie None (Keine) in der Liste Optionally select a function to apply (Optional eine anzuwendende Funktion auswählen) aus, da bei der Filterung der Datensätze keine Funktion angewendet werden soll.
-
Wählen Sie == in der Liste Operator aus und geben Sie phone(Telefon) in die Liste Value (Wert) ein, um die Kunden mit Telefonnummern auszufiltern.
-
Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern. In der Vorschau können Sie die Datensätze visualisieren, die den Filterkriterien entsprechen (Benutzer mit Telefonnummern).
-
Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) für die Pipeline, um das Fenster zur Auswahl des Datensatzes zu öffnen, der die verarbeiteten Daten aufnehmen soll.
Benennen Sie den Datensatz um, falls erforderlich.
-
Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
-
Wählen Sie in Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter Ausführungsprofile) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.
Ergebnisse
Die Pipeline wird ausgeführt, die Daten werden gemäß den von Ihnen mithilfe der Abfragesprache angegebenen Bedingungen gefiltert und die Ausgabe wird an das von Ihnen angegebene Zielsystem gesendet.