Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Verarbeiten von Zeichenfolgen zum Abrufen des Einkommens bei kleineren Taxifahrten

Eine Pipeline mit einer Testquelle, einem Prozessor vom Typ „Field selector (Feldauswahl)“, einem Prozessor vom Typ „Filter“ und einem HDFS-Ziel.

Vorbereitungen

  • Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    In diesem Beispiel hierarchische Taxidaten, d. h. Abholzeit, Ankunftszeit, Tarif usw. (laden Sie die Datei type_converter-taxi.json über die Registerkarte Downloads im linken Bereich dieser Seite herunter).

  • Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.

    In diesem Beispiel eine in HDFS gespeicherte Datei.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Convert small taxi rides (Kleinere Taxifahrten konvertieren)
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten, in diesem Fall Taxidaten, auswählen können.
    Vorschau eines Datenbeispiels über hierarchische Taxidaten.
    InformationshinweisWarnung: Der Prozessor vom Typ Type converter (Typkonverter) kann keine untergeordneten Datensätze verarbeiten. Wenn Sie diese Datensätze konvertieren möchten, müssen Sie einen Prozessor vom Typ Field selector (Feldauswahl) einsetzen, um die Datensätze neu zu organisieren und sie auf der obersten Schema-Ebene anzusiedeln.
  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  5. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Field selector (Feldauswahl) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  6. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    reorganize records (Datensätze neu organisieren)
  7. Klicken Sie auf das Symbol Bearbeiten im Auswahlmodus Simple (Einfach):
    1. Wählen Sie das Feld .pickup.pickup_datetime (.Abholung.Abholung_Datum/Uhrzeit) aus und benennen Sie es zu pickup_time (Abholung_Uhrzeit) um, da Sie das Feld pickup_datetime (Abholung_Datum/Uhrzeit) des ersten Standorts auswählen und auf die oberste Schema-Ebene versetzen möchten.
    2. Wählen Sie das Feld .dropoff.dropoff_datetime (.Ankunft.Ankunft_Datum/Uhrzeit) aus und benennen Sie es zu dropoff_time (Ankunft_Uhrzeit) um, da Sie das Feld dropoff_datetime (Ankunft_Datum/Uhrzeit) des ersten Standorts auswählen und auf die oberste Schema-Ebene versetzen möchten.
    3. Wählen Sie das Feld .payment.fare_amount (.Zahlung.Tarif_Betrag) aus und benennen Sie es zu fare (Tarif) um, da Sie das Feld fare_amount (Tarif_Betrag) des ersten Standorts auswählen und auf die oberste Schema-Ebene versetzen möchten.
    4. Klicken Sie auf Edit (Bearbeiten) und anschließend auf Save (Speichern), um die Konfiguration zu speichern.
      Vorschau des Prozessors vom Typ „Field selector (Feldauswahl)“ nach der Umorganisation der Taxidatensätze.
  8. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Type converter (Typ Konverter) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  9. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    convert rides and fares (Fahrten und Tarife konvertieren)
  10. Führen Sie im Bereich Converters (Konverter) Folgendes durch:
    1. Wählen Sie .pickup_time (.Abholung_Uhrzeit) in der Liste Field path (Feldpfad), den Modus Primitive (Primitiv) und den Eintrag DateTime (Datum/Uhrzeit) in der Liste Output type (Ausgabetyp) aus. Geben Sie dann yyyy-MM-dd HH:mm:ss (jjjj-MM-tt HH:mm:ss) in das Feld Format ein, um das Feld der Datums-/Uhrzeitangabe mit der Abholzeit in ein Feld des Typs Ganzzahl (Integer) zu konvertieren. yyyy-MM-dd HH:mm:ss entspricht dem Format des Eingabefelds.
      InformationshinweisTipp: Weitere Informationen zu Datumsformaten und -muster finden Sie unter Weitere Informationen zu Datums- und Uhrzeitmuster.
    2. Klicken Sie auf das Symbol +, um einen neuen Konverter hinzuzufügen, wählen Sie den Eintrag .dropoff_time (.Ankunft_Uhrzeit) in der Liste Field path (Feldpfad) und den Modus Primitive (Primitiv) aus. Wählen Sie dann den Eintrag DateTime (Datum/Uhrzeit) in der Liste Output type (Ausgabetyp) aus und geben Sie yyyy-MM-dd HH:mm:ss (jjjj-MM-tt HH:mm:ss) in das Feld Format ein, um das Feld der Datums-/Uhrzeitangabe mit der Ankunftszeit in ein Feld des Typs Ganzzahl (Integer) zu konvertieren. yyyy-MM-dd HH:mm:ss entspricht dem Format des Eingabefelds.
    3. Klicken Sie auf das Symbol +, um einen neuen Konverter hinzuzufügen, und wählen Sie .fare (.Tarif) in der Liste Field path (Feldpfad), den Modus Primitive (Primitiv) und dann den Eintrag Double (Doppelt) in der Liste Output type (Ausgabetyp) aus, um das Feld vom Typ Zeichenfolge (String) mit den Tarifinformationen in ein Feld vom Typ Doppelwert (Double) zu konvertieren.
      InformationshinweisTipp: Sie haben die Möglichkeit, mehrere Konvertierungen auf dasselbe Feld anzuwenden. So können Sie beispielsweise ein Feld vom Typ „String“ (Zeichenfolge) mit einem Datum in ein Feld vom Typ „Long“ (Lang) konvertieren und das generierte „Long“-Feld dann in ein Feld vom Typ „DateTime“ (Datum/Uhrzeit) konvertieren.
    4. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
      Vorschau des Prozessors vom Typ „Type converter (Typ Konverter)“ nach dem Konvertieren von Datensätzen bezüglich Fahrten und Preisen.
  11. Klicken Sie auf Plus hinter dem Prozessor vom Typ Type converter (Typ Konverter) in der Pipeline und fügen Sie einen Prozessor vom Typ Filter hinzu.
  12. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    filter on short rides (Kurze Fahrten ausfiltern)
  13. Führen Sie im Bereich Filters (Filter) Folgendes durch:
    1. Geben Sie .{.dropoff_time - .pickup_time > 660000} (Ankunftszeit - Abholzeit - 660000) in die Liste Input (Eingabe) ein, um die Fahrten auszufiltern, die weniger als 11 Minuten gedauert haben.
    2. Wählen Sie Count (Anzahl) in der Liste Optionally select a function to apply (Optional anzuwendende Funktion auswählen) sowie > in der Liste Operator aus und geben Sie 0 in der Liste Value (Wert) ein, da die kurzen Fahrten gezählt werden sollen.
    3. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
      Vorschau des Prozessors vom Typ „Filter“ nach dem Filtern der Tatxidatensätze nach kurzen Fahrten.
  14. (Optional) Sehen Sie sich die Vorschau des Prozessors vom Typ Filter an, um zu prüfen, wie Ihre Daten nach der Filterung aussehen.
  15. Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) für die Pipeline, um das Fenster zur Auswahl des Datensatzes zu öffnen, der Ihre Daten (HDFS) aufnehmen soll.
  16. Geben Sie einen aussagekräftigen Namen ein, z. B. short rides data (Daten zu kurzen Fahrten).
  17. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  18. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt, die Feldtypen werden konvertiert und gefiltert und der Ausgabe-Flow wird an das von Ihnen angegebene Zielsystem gesendet.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!