Vorbereitungen
-
Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.
In diesem Beispiel eine Verbindung zu Amazon S3.
-
Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.
In diesem Beispiel ein Datensatz mit Daten zur Getreideernte in Mali mit Getreidetyp, Wert der Produktion, abgeernteten Gebieten usw. (laden Sie die Datei string-crops.csv über die Registerkarte Downloads im linken Bereich dieser Seite herunter).
-
Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.
In diesem Beispiel ein im gleichen S3-Bucket gespeicherter Datensatz.
Prozedur
-
Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
-
Legen Sie einen sinnvollen Namen für die Pipeline fest.
Example
Process strings about harvested crops (Zeichenfolgen über Getreideernten verarbeiten)
-
Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten, in diesem Fall Daten zur Getreideernte in Mali im Jahr 2005, auswählen können.
Example
-
Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
Benennen Sie den Datensatz um, falls erforderlich.
-
Klicken Sie auf
und fügen Sie einen Prozessor vom Typ Strings (Zeichenfolgen) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
-
Geben Sie einen sinnvollen Namen für den Prozessor an.
Example
change crop types to upper case (Getreidetypen in Großbuchstaben ändern)
-
Führen Sie im Bereich Configuration (Konfiguration) Folgendes durch:
-
Wählen Sie Change to upper case (In Großbuchstaben ändern) in der Liste Function name (Funktionsname) aus.
-
Wählen Sie .crop_parent (Getreide_Kategorie) in der Liste Fields to process (Zu verarbeitende Felder) aus, um die Getreidetypwerte in Großbuchstaben zu ändern.
-
Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor dem Vorgang mit denjenigen nach dem Vorgang zu vergleichen.
-
Klicken Sie auf
und fügen Sie einen weiteren Prozessor vom Typ Strings (Zeichenfolgen) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
-
Geben Sie einen sinnvollen Namen für den Prozessor an.
Example
match crop IDs with IDs (Getreide-IDs mit IDs abstimmen)
-
Führen Sie im Bereich Configuration (Konfiguration) Folgendes durch:
-
Wählen Sie Match similar text (Ähnlichen Text suchen) in der Liste Function name (Funktionsname) aus.
-
Wählen Sie .crop (Getreide) in der Liste Fields to process (Zu verarbeitende Felder) aus.
-
Wählen Sie Other column (Andere Spalte) in der Liste Use with (Verwenden mit) und .id in der Liste Column (Spalte) aus, um die Getreidenamens-ID mit der Datensatz-ID zu vergleichen.
-
Geben Sie 0 in das Fuzziness-Feld ein, da Sie nach genauen Übereinstimmungen zwischen den zwei Feldwerten suchen.
-
Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor dem Vorgang mit denjenigen nach dem Vorgang zu vergleichen. Sie sehen jetzt die neue Spalte crop_matches (Getreide_Übereinstimmungen), in der die genauen Übereinstimmungen den Wert true und nicht übereinstimmende IDs den Wert false aufweisen.
-
Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) und wählen Sie den Datensatz aus, der die verarbeiteten Daten aufnehmen soll.
Benennen Sie den Datensatz um, falls erforderlich.
-
Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
-
Wählen Sie in Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter Ausführungsprofile) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.
Ergebnisse
Ihre Pipeline wird ausgeführt, die ausgewählten Zeichenfolgen werden verarbeitet und der Ausgabe-Flow an das von Ihnen angegebene S3-Bucket gesendet.