Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Verarbeiten von Zeichenfolgen über Getreideernten

Eine Pipeline mit einer S3-Quelle, zwei Prozessoren vom Typ „String (Zeichenfolge)“ und einem S3-Ziel.

Vorbereitungen

  • Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.

    In diesem Beispiel eine Verbindung zu Amazon S3.

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    Laden Sie folgende Datei herunter: string-crops.csv. Sie enthält einen Datensatz mit Daten zu Ernten in Mali mit Erntetyp, Produktionswert, abgeernteten Gebieten usw.

  • Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.

    In diesem Beispiel ein im gleichen S3-Bucket gespeicherter Datensatz.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Process strings about harvested crops (Zeichenfolgen über Getreideernten verarbeiten)
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten, in diesem Fall Daten zur Getreideernte in Mali im Jahr 2005, auswählen können.

    Example

    Vorschau eines Datenbeispiels mit Getreidedatensätzen
  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  5. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Strings (Zeichenfolgen) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  6. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    change crop types to upper case (Getreidetypen in Großbuchstaben ändern)
  7. Führen Sie im Bereich Configuration (Konfiguration) Folgendes durch:
    1. Wählen Sie Change to upper case (In Großbuchstaben ändern) in der Liste Function name (Funktionsname) aus.
    2. Wählen Sie .crop_parent (Getreide_Kategorie) in der Liste Fields to process (Zu verarbeitende Felder) aus, um die Getreidetypwerte in Großbuchstaben zu ändern.
  8. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor dem Vorgang mit denjenigen nach dem Vorgang zu vergleichen.

    Vorschau des Prozessors vom Typ „Strings (Zeichenfolge)“ nach dem Ändern der Schreibweise der Getreidedatensätze zu Großbuchstaben.
  9. Klicken Sie auf Plus und fügen Sie einen weiteren Prozessor vom Typ Strings (Zeichenfolgen) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  10. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    match crop IDs with IDs (Getreide-IDs mit IDs abstimmen)
  11. Führen Sie im Bereich Configuration (Konfiguration) Folgendes durch:
    1. Wählen Sie Match similar text (Ähnlichen Text suchen) in der Liste Function name (Funktionsname) aus.
    2. Wählen Sie .crop (Getreide) in der Liste Fields to process (Zu verarbeitende Felder) aus.
    3. Wählen Sie Other column (Andere Spalte) in der Liste Use with (Verwenden mit) und .id in der Liste Column (Spalte) aus, um die Getreidenamens-ID mit der Datensatz-ID zu vergleichen.
    4. Geben Sie 0 in das Fuzziness-Feld ein, da Sie nach genauen Übereinstimmungen zwischen den zwei Feldwerten suchen.
  12. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor dem Vorgang mit denjenigen nach dem Vorgang zu vergleichen. Sie sehen jetzt die neue Spalte crop_matches (Getreide_Übereinstimmungen), in der die genauen Übereinstimmungen den Wert true und nicht übereinstimmende IDs den Wert false aufweisen.

    Vorschau des Prozessors vom Typ „Strings (Zeichenfolgen)“ nach dem Vergleichen der Getreidedatensätze basierend auf ihren IDs.
  13. Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) und wählen Sie den Datensatz aus, der die verarbeiteten Daten aufnehmen soll.
    Benennen Sie ihn um, falls erforderlich.
  14. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  15. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt, die ausgewählten Zeichenfolgen werden verarbeitet und der Ausgabe-Flow an das von Ihnen angegebene S3-Bucket gesendet.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!