Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Auswählen spezifischer Datensätze mithilfe von avpath

In diesem Szenario wird die avpath-Syntax verwendet, um die Bewertungen von Restaurants nach Präferenzen wie Alter der Besucher, Einstufung und Geräuschkulisse zu filtern.

Pipeline namens „Filter restaurant reviews“ mit einer Amazon S3-Quelle, zwei Filterprozessoren und einem Amazon S3-Ziel

Vorbereitungen

  • Sie haben zuvor eine Verbindung zu dem System erstellt, in dem Ihre Quelldaten gespeichert sind, in diesem Fall eine Verbindung zu einem S3-Bucket. Weitere Informationen finden Sie unter „Erstellen von Verbindungen“.

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    Laden Sie folgende Datei herunter und extrahieren Sie sie: restaurant_reviews.zip. Sie enthält Restaurantbewertungen mit verschachtelten Datensätzen über das Restaurant und seine Gäste. Weitere Informationen finden Sie unter „Erstellen von Datensätzen“.

  • Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Filter restaurant reviews (Restaurantbewertungen filtern)
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten auswählen können, in diesem Fall die Restaurantbewertungen.
  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  5. Klicken Sie auf Plus und fügen Sie einen Filter-Prozessor zur Pipeline hinzu. Das Konfigurationsfenster wird geöffnet.
  6. Geben Sie einen aussagekräftigen Namen für den Prozessor ein, z. B. with reviews by at least 20 helpful old people (Bewertungen von mindestens 20 hilfreichen älteren Personen).
  7. Führen Sie im Filterbereich Folgendes durch:
    1. Geben Sie im Input (Eingabe)-Bereich .reviews{.user.age >= 60 && .user.user_votes.helpful > 20} ein, da Sie ausschließlich Bewertungen von Gästen im Alter von 60+ mit mindestens 20 hilfreichen Einstufungen möchten.
    2. Wählen Sie Count (Anzahl) in der Liste Optionally select a function to apply (Optional anzuwendende Funktion auswählen) sowie >= in der Liste Operator aus und geben Sie 20 in der Liste Value (Wert) ein, da Sie mindestens 20 dieser Benutzerbewertungen erhalten möchten.
  8. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  9. Klicken Sie erneut auf Plus und fügen Sie einen weiteren Filter-Prozessor zur Pipeline hinzu. Das Konfigurationsfenster wird geöffnet.
  10. Geben Sie einen aussagekräftigen Namen für den Prozessor ein, z. B. with quiet noise level (mit geringer Geräuschkulisse).
  11. Führen Sie im Filterbereich Folgendes durch:
    1. Wählen Sie .business.attributes.noise_level in der Input (Eingabe)-Liste aus, da Sie die Restaurants nach Geräuschkulisse filtern möchten.
    2. Wählen Sie None (Keine) in der Liste Optionally select a function to apply (Optional anzuwendende Funktion auswählen) sowie == in der Liste Operator aus und geben Sie quiet (ruhig) in der Liste Value (Wert) ein, da Sie Restaurants mit geringer Geräuschkulisse ausfiltern möchten.
  12. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  13. Klicken Sie auf das Element ADD DESTINATION (ZIEL HINZUFÜGEN) der Pipeline, um das Fenster zur Auswahl des Datensatzes zu öffnen, der die gefilterten Daten aufnehmen soll.
  14. Geben Sie einen aussagekräftigen Namen für das Ziel ein, z. B. perfect restaurants for old hipsters (perfekte Restaurants für ältere Hipster).
  15. (Option) Sehen Sie sich den letzten Filter-Prozessor an, um eine Vorschau Ihrer Daten nach dem Filtervorgang anzuzeigen und einen Vergleich anzustellen.
  16. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  17. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Die Pipeline wird ausgeführt, die Daten werden gemäß den von Ihnen über avpath angegebenen Bedingungen gefiltert und die Ausgabe wird an das von Ihnen angegebene Zielsystem gesendet.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!