Einen Schritt weitergehen: Hochladen eines Datensatzes in S3 - Cloud

Einführungshandbuch für Talend Cloud Pipeline Designer

Version
Cloud
Language
Deutsch (Deutschland)
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Design und Entwicklung > Konzeption von Pipelines
Implementierung > Implementierung > Pipeline-Ausführung

Wenn Sie über ein Amazon S3-Konto verfügen, möchten Sie möglicherweise noch einen Schritt weitergehen. Nachdem Sie eine Datei in S3 hochgeladen haben, können Sie eine Verbindung mit diesem S3-Bucket erstellen und den Datensatz von Talend Cloud Pipeline Designer abrufen.

Sie können dann den Anwendungsfall mit dem in Amazon S3 gehosteten Datensatz reproduzieren.

Vorbereitungen

  • Stellen Sie sicher, dass Benutzer oder Benutzergruppen über die korrekten Berechtigungen für den Zugriff auf die Amazon S3-Ressourcen verfügen.

    Wenn Sie nicht über diese Berechtigungen verfügen, können Sie eine der folgenden Optionen ausprobieren.
    1. (Empfohlen) Bitten Sie den Administrator, der Ihr Amazon-Konto verwaltet, Ihnen/Ihrem Benutzer die korrekten S3-Berechtigungen zu erteilen.
    2. Implementieren Sie Ihre Zugriffsrichtlinie selbst, indem Sie die Angaben in der Amazon-Dokumentation befolgen, wenn Sie dazu berechtigt sind.
    3. (Nicht empfohlen) Fügen Sie die AmazonS3FullAccess-Richtlinie Ihrer Gruppe bzw. Ihren Benutzern über die IAM-Konsole hinzu. Auf diese Weise können Sie ohne Beschränkung auf ein bestimmtes Bucket S3-Ressourcen lesen und in diese schreiben. Dies ist jedoch eine schnelle Lösung, die von Talend nicht empfohlen wird.
    Anmerkung: Der Standardfehler, der angezeigt wird, wenn Sie versuchen, auf S3-Ressourcen zuzugreifen, ohne über die erforderlichen Berechtigungen zu verfügen, ist Bad Gateway (Ungültiges Gateway).
  • Rufen Sie die Datei financial_transactions.avro auf der Registerkarte Downloads im linken Fensterbereich dieser Seite ab.

Prozedur

  1. Laden Sie die Datei financial_transactions.avro, wie in der Amazon S3-Dokumentation beschrieben, in Ihr Amazon S3-Bucket hoch.
  2. Klicken Sie auf der Homepage von Talend Cloud Pipeline Designer auf Connections (Verbindungen) > ADD CONNECTION (VERBINDUNG HINZUFÜGEN).
  3. Geben Sie im daraufhin geöffneten Fensterbereich einen Namen für die Verbindung an (z. B. s3 connection (S3-Verbindung).
  4. Wählen Sie in der Liste Engine Ihre Remote Engine Gen2 aus.
    Anmerkung: Wenn Sie eine Remote Engine Gen2 verwenden möchten, müssen Sie sie über Talend Cloud Management Console erstellen. Wenn sie vorhanden ist, aber nicht den Status AVAILABLE (VERFÜGBAR) aufweist, d. h. aktiv ist und ausgeführt wird, können Sie weder einen Connection type (Verbindungstyp) in der Liste auswählen, noch die neue Verbindung speichern. Die Liste der verfügbaren Verbindungstypen richtet sich nach der ausgewählten Engine.
  5. Wählen Sie in der Liste Connection type (Verbindungstyp) den Eintrag S3 Connection (S3-Verbindung) aus.
  6. Überprüfen Sie die Verbindung und klicken Sie auf ADD DATASET (DATENSATZ HINZUFÜGEN), um auf die Datei zu verweisen, die Sie zuvor in Ihr S3-Bucket hochgeladen haben.
  7. Geben Sie im Fensterbereich Add a new dataset (Neuen Datensatz hinzufügen) die Verbindungsinformationen zu Ihrem S3-Bucket ein:
    1. Geben Sie einen Anzeigenamen für den Datensatz an (z. B. financial data on S3 (Finanzdaten in S3)).
    2. Fügen Sie bei Bedarf eine Beschreibung hinzu.
    3. Wählen Sie im Feld Bucket den Namen des S3-Buckets aus oder geben Sie ihn ein.
    4. Geben Sie im Feld Path (Pfad) den Pfad zu der Datei financial_transactions.avro ein, die Sie zuvor in das S3-Bucket hochgeladen haben.
    5. Klicken Sie in der Liste der Formate auf AUTO DETECT (AUTOM. ERKENNEN), damit das Format automatisch erkannt wird, oder wählen Sie Avro in der Liste aus.
  8. Klicken Sie auf VIEW SAMPLE (SAMPLE ANZEIGEN), um zu prüfen, ob die Daten gültig sind und in der Vorschau angezeigt werden können.
  9. Klicken Sie auf VALIDATE (VALIDIEREN), um den Datensatz zu speichern.

Ergebnisse

Der neue Datensatz wird auf der Seite DATASETS (DATENSÄTZE) in der Liste hinzugefügt und kann verwendet werden, um den zuvor von Ihnen erstellten Anwendungsfall zu reproduzieren.
Legen Sie vor der Ausführung der Pipeline fest, ob die in S3 vorhandenen Daten überschrieben oder in die Konfigurationsregisterkarte des Zieldatensatzes aufgenommen werden sollen:

Sobald die Pipeline ausgeführt wird, sind die aktualisierten Daten in der Datei in Amazon S3 sichtbar.