Verarbeiten von in Google Cloud Storage gespeicherten Statistikdaten und Hochladen der Daten in Amazon S3

Dieses Szenario soll Sie bei der Einrichtung und Verwendung von Konnektoren in einer Pipeline unterstützen. Es wird empfohlen, dass Sie das Szenario an Ihre Umgebung und Ihren Anwendungsfall anpassen.

Vorbereitungen

Wenn Sie dieses Szenario reproduzieren möchten, laden Sie folgende Datei herunter: gcstorage_s3_nyc_stats.xlsx. Diese Datei ist ein Auszug aus dem öffentlich zugänglichen Datensatz aus New York nyc-park-crime-stats-q4-2019.xlsx, der beliebigen Benutzern zur Verfügung steht.

Prozedur

Klicken Sie auf Connections (Verbindungen) > Add connection (Verbindung hinzufügen).
Wählen Sie den Typ der zu erstellenden Verbindung im daraufhin geöffneten Fenster aus.
Example
Google Cloud Storage
Wählen Sie in der Liste Engine Ihre Engine aus.
InformationshinweisAnmerkung:
- Es wird empfohlen, die Moteur distant Gen2 und nicht die Moteur Cloud pour le design für eine erweiterte Datenverarbeitung einzusetzen.
- Wenn keine Moteur distant Gen2 in Talend Management Console erstellt wurde bzw. diese vorhanden, aber als nicht verfügbar markiert ist, d. h. sie ist nicht aktiv und wird nicht ausgeführt, dann können Sie weder einen Connection type (Verbindungstyp) in der Liste auswählen noch die neue Verbindung speichern.
- Die Liste der verfügbaren Verbindungstypen richtet sich nach der ausgewählten Engine.
Wählen Sie den Typ der zu erstellenden Verbindung aus.
Wählen Sie Google Cloud Storage aus.
Geben Sie die JSON-Anmeldedaten für den Zugriff auf Ihr Google Cloud-Konto wie in Eigenschaften von Google Cloud Storage beschrieben ein, prüfen Sie die Verbindung und klicken Sie dann auf Add dataset (Datensatz hinzufügen).
Geben Sie im Fensterbereich Add a new dataset (Neuen Datensatz hinzufügen) einen Namen für Ihren Datensatz ein: NYC park crime stats crime (Statistiken zu Verbrechen in NYC-Parks).
Geben Sie die erforderlichen Eigenschaften für den Zugriff auf die Datei in Ihrem Google Cloud Storage-Bucket ein und klicken Sie dann auf View sample (Sample anzeigen), um eine Vorschau Ihres Datensatz-Samples anzuzeigen.
Klicken Sie auf Validate (Validieren), um den Datensatz zu speichern.
Gehen Sie genauso vor, um die S3-Verbindung und den Datensatz hinzuzufügen, die als Ziel in Ihrer Pipeline fungieren sollen.
Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie Ihre Quelldaten auswählen können, in diesem Fall ein öffentlicher Datensatz mit Verbrechen in Parks von New York, der in einem Google Cloud Storage-Bucket gespeichert ist.
Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
Benennen Sie ihn um, falls erforderlich.
Klicken Sie auf und fügen Sie einen Prozessor vom Typ Math (Mathematik) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
Geben Sie einen sinnvollen Namen für den Prozessor an.
Example
calculate acre square root (Acre-Quadratwurzel berechnen)
Konfigurieren Sie den Prozessor:
1. Wählen Sie Square root (Quadratwurzel) in der Liste Function name (Funktionsname) aus, da die Quadratwurzel des Felds SIZE__ACRES_ (GRÖSSE ACRES) berechnet werden soll.
2. Wählen Sie .SIZE__ACRES_ (GRÖSSE ACRES) in der Liste Fields to process (Zu verarbeitende Felder) aus.
3. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  
  (Optional) Sehen Sie sich die Vorschau des Prozessors an, um zu prüfen, wie die Daten nach der Berechnung aussehen.
Klicken Sie auf und fügen Sie einen Filter-Prozessor zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
Geben Sie einen sinnvollen Namen für den Prozessor an.
Example
filter on robberies (Diebstähle ausfiltern)
Konfigurieren Sie den Prozessor:
1. Fügen Sie ein neues Element hinzu und wählen Sie .ROBBERY (DIEBSTAHL) in der Liste Input (Ausgabe) aus, da von den im Datensatz aufgeführten Verbrechen nur die Kategorie Diebstahl beibehalten werden soll.
2. Wählen Sie None (Keine) in der Liste Optionally select a function to apply (Optional anzuwendende Funktion auswählen) aus.
3. Wählen Sie >= in der Liste Operator aus.
4. Geben Sie 1 in das Feld Value (Wert) ein, da die Daten ausgefiltert werden sollen, die mindestens einen Fall von Diebstahl enthalten.
5. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
(Option) Sehen Sie sich die Vorschau des Filter-Prozessors an, um zu prüfen, wie Ihr Daten-Sample nach dem Filtervorgang aussieht.
Example
Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) und wählen Sie den S3-Datensatz aus, der Ihre neu organisierten Daten aufnehmen soll.
Benennen Sie den Datensatz um, falls erforderlich.
Aktivieren Sie auf der Registerkarte Configuration (Konfiguration) des Ziels die Option Overwrite (Überschreiben), um die bestehende Datei in S3 mit der Datei zu überschreiben, die Ihre verarbeiteten Daten aufnehmen wird. Klicken Sie anschließend auf Save (Speichern), um Ihre Konfiguration zu speichern.
Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt und der Ausgabefluss an das von Ihnen angegebene Amazon S3-Bucket gesenet.

Wenn Sie die Ausgabedatei herunterladen, können Sie feststellen, dass die Verbrechensdaten verarbeitet und die Diebstahlfälle isoliert wurden.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!

Geben Sie hier Ihr Feedback ab