Schreiben von Daten in eine cloudbasierte File Storage (S3)

Vorbereitungen

Stellen Sie sicher, dass Benutzer oder Benutzergruppen über die korrekten Berechtigungen für den Zugriff auf die Amazon S3-Ressourcen verfügen.
Wenn Sie nicht über diese Berechtigungen verfügen, können Sie eine der folgenden Optionen ausprobieren.
1. (Empfohlen) Bitten Sie den Administrator, der Ihr Amazon-Konto verwaltet, Ihnen/Ihrem Benutzer die korrekten S3-Berechtigungen zu erteilen.
2. Implementieren Sie Ihre Zugriffsrichtlinie selbst, indem Sie die Angaben in der Amazon-Dokumentation befolgen, wenn Sie dazu berechtigt sind.
3. (Nicht empfohlen) Fügen Sie die AmazonS3FullAccess-Richtlinie Ihrer Gruppe bzw. Ihren Benutzern über die IAM-Konsole hinzu. Auf diese Weise können Sie ohne Beschränkung auf ein bestimmtes Bucket S3-Ressourcen lesen und in diese schreiben. Dies ist jedoch eine schnelle Lösung, die von Talend nicht empfohlen wird.
InformationshinweisAnmerkung: Der Standardfehler, der angezeigt wird, wenn Sie versuchen, auf S3-Ressourcen zuzugreifen, ohne über die erforderlichen Berechtigungen zu verfügen, ist Bad Gateway (Ungültiges Gateway).
Laden Sie folgende Datei herunter: financial_transactions.avro
Erstellen Sie eine Remote Engine Gen2 sowie das zugehörige Ausführungsprofil über Talend Management Console.
In Talend Management Console sind standardmäßig die Cloud Engine for Design und ein entsprechendes Ausführungsprofil integriert. Dadurch können die Benutzer in kürzester Zeit ihre Arbeit mit der Anwendung aufnehmen. Es wird jedoch empfohlen, die sichere Remote Engine Gen2 zu installieren, die eine erweiterte Datenverarbeitung ermöglicht.

Prozedur

Laden Sie die Datei financial_transactions.avro, wie in der Amazon S3-Dokumentation beschrieben, in Ihr Amazon S3-Bucket hoch.
Klicken Sie auf der Homepage von Talend Cloud Pipeline Designer auf Connections (Verbindungen) > Add connection (Verbindung hinzufügen).
Wählen Sie in dem Fenster, das geöffnet wird, Amazon S3 aus und klicken Sie dann auf Next (Weiter).
Wählen Sie in der Liste Engine Ihre Remote Engine Gen2 aus.

InformationshinweisWichtig: Wenn sich die Remote Engine Gen2 nicht im Status AVAILABLE (VERFÜGBAR) befindet, der darauf verweist, dass sie aktiv ist und ausgeführt wird, können Sie weder einen Connection type (Verbindungstyp) in der Liste auswählen noch die neue Verbindung speichern. Die Liste der verfügbaren Verbindungstypen richtet sich nach der ausgewählten Engine.
Geben Sie Ihre Anmeldedaten ein, prüfen Sie die Verbindung und klicken Sie dann auf Next (Weiter).
Geben Sie einen Namen für die Verbindung an, z. B. S3 connection (S3-Verbindung), und klicken Sie auf Validate (Validieren).
Klicken Sie auf Add dataset (Datensatz hinzufügen), um die Datei zu identifizieren, die Sie zuvor in Ihr S3-Bucket hochgeladen haben.
Geben Sie im Fensterbereich Add a new dataset (Neuen Datensatz hinzufügen) die Verbindungsinformationen zu Ihrem S3-Bucket ein:
1. Geben Sie einen Anzeigenamen für den Datensatz an (z. B. financial data on S3 (Finanzdaten in S3)).
2. Wählen Sie im Feld AWS bucket name (Name des AWS-Buckets) den Namen des S3-Buckets aus bzw. geben Sie ihn ein.
3. Geben Sie im Feld Object name (Objektname) den Pfad zu der Datei financial_transactions.avro ein, die Sie zuvor in das S3-Bucket hochgeladen haben.
4. Klicken Sie in der Liste Format auf Auto detect (Autom. erkennen), damit das Format automatisch erkannt wird, oder wählen Sie Avro in der Liste aus.
Klicken Sie auf View sample (Sample anzeigen), um zu prüfen, ob die Daten gültig sind und in der Vorschau angezeigt werden können.
Klicken Sie auf Validate (Validieren), um den Datensatz zu speichern.

Ergebnisse

Der neue Datensatz wird auf der Seite Datasets (Datensätze) in der Liste hinzugefügt und kann verwendet werden, um den zuvor von Ihnen erstellten Anwendungsfall: Erstellen einer Pipeline zur Verarbeitung von Finanzdaten zu reproduzieren.

Legen Sie vor der Ausführung der Pipeline fest, ob die in S3 vorhandenen Daten überschrieben oder in die Konfigurationsregisterkarte des Zieldatensatzes aufgenommen werden sollen:

Die Registerkarte Configuration (Konfiguration) des S3-Ziels zeigt den ausgewählten Datenvorgang „Überschreiben“.

Sobald die Pipeline ausgeführt wird, sind die aktualisierten Daten in der Datei in Amazon S3 sichtbar.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!

Geben Sie hier Ihr Feedback ab