Vorbereitungen
-
Sie haben die Datei financial_transactions.avro von der Registerkarte Downloads im linken Fensterbereich dieser Seite abgerufen und sie in Ihr Amazon S3-Bucket hochgeladen.
- Sie haben die unter Schreiben von Daten in einen Cloud-Speicher (S3) beschriebene Pipeline reproduziert und dupliziert und arbeiten jetzt mit dieser duplizierten Pipeline.
- Sie haben eine Remote Engine Gen2 sowie das zugehörige Ausführungsprofil über Talend Cloud Management Console erstellt.
In Talend Cloud Management Console sind standardmäßig die Cloud Engine for Design und ein entsprechendes Ausführungsprofil integriert. Dadurch können die Benutzer in kürzester Zeit ihre Arbeit mit der Anwendung aufnehmen. Es wird jedoch empfohlen, die sichere Remote Engine Gen2 zu installieren, die eine erweiterte Datenverarbeitung ermöglicht.
Prozedur
-
Klicken Sie auf der Homepage von Talend Cloud Pipeline Designer auf .
-
Geben Sie im daraufhin geöffneten Fensterbereich einen Namen für die Verbindung an, z. B. Snowflake connection (Snowflake-Verbindung).
-
Wählen Sie in der Liste Engine Ihre Remote Engine Gen2 aus.
-
Wählen Sie in der Liste Connection type (Verbindungstyp) den Eintrag Database (Datenbank) und in der Liste Database (Datenbank) den Eintrag Snowflake aus.
-
Geben Sie die JDBC-URL Ihrer Datenbank und die entsprechenden Anmeldedaten ein.
-
Prüfen Sie nach Bedarf Ihre Verbindung und klicken Sie dann auf Add dataset (Datensatz hinzufügen), um die Snowflake-Tabelle zu identifizieren, die als Zieldatensatz dienen soll.
-
Geben Sie im Fensterbereich Add a new dataset (Neuen Datensatz hinzufügen) die Verbindungsinformationen für Ihre Snowflake-Tabelle ein:
-
Geben Sie einen Anzeigenamen für den Datensatz ein, z. B. financial data on Snowflake (Finanzdaten in Snowflake).
-
Wählen Sie in der Liste Type (Typ) den Eintrag Table or view name (Tabellen- oder Ansichtsname) aus.
-
Wählen Sie in der Liste Table name (Tabellenname) den Namen der Snowflake-Tabelle aus bzw. geben Sie ihn ein.
-
Wählen Sie im Feld Column selection (Tabellenauswahl) die Tabellenspalten aus, die abgerufen werden sollen, oder klicken Sie auf Select all (Alle auswählen), um alle vorhandenen Spalten abzurufen. In diesem Beispiel wurden 2 Felder ausgewählt: transaction_amount (Transaktion_Betrag) und transaction_code (Transaktion_Code).
-
Klicken Sie auf View sample (Sample anzeigen), um zu prüfen, ob die Daten gültig sind und in der Vorschau angezeigt werden können.
-
Klicken Sie auf Validate (Validieren), um den Datensatz zu speichern. Der neue Datensatz wird in der Liste auf der Seite Datasets (Datensätze) hinzugefügt und kann jetzt in Ihrer Pipeline als Zieldatensatz verwendet werden.
Das Symbol „Data Mapping“ neben dem Ziel wird vorübergehend deaktiviert, da es sich bei dem Eingabeschema um kein flaches Schema handelt.
-
Klicken Sie auf das Symbol + und fügen Sie nach dem Prozessor Aggregate (Aggregieren) einen Prozessor vom Typ Field selector (Feldauswahl) hinzu, um die Felder auszuwählen, die Sie beibehalten möchten, und um das Schema abzuflachen. Daraufhin wird das Konfigurationsfenster geöffnet.
-
Klicken Sie im Auswahlmodus Simple (Einfach) auf
, um das Fenster Select fields (Felder auswählen) zu öffnen:
-
Wählen Sie die Felder aus, die beibehalten und abgeflacht werden sollen: description (Beschreibung) und total_amount (Gesamtbetrag).
-
Klicken Sie auf Edit (Bearbeiten), um das Fenster wieder zu schließen.
-
Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern und eine Vorschau der abgeflachten Felder anzuzeigen.
-
Sie verfügen jetzt über ein flaches Eingabeschema. Somit wird
aktiviert, d. h. Sie können einen Prozessor vom Typ Data mapping (Datenmapping) zur Pipeline hinzufügen. Daraufhin wird das Konfigurationsfenster geöffnet.
-
Klicken Sie auf der Registerkarte Configuration (Konfiguration) auf Open mapping (Mapping öffnen), um den Datenmapping-Prozessor zu öffnen.
Einige der Eingabefelder werden automatisch einem auf ihrem Namen basierenden Ausgabefeld zugeordnet. Sie können diese Felder prüfen und dann das Mapping für das restliche Schema durchführen:
-
Ordnen Sie das Eingabefeld total_amount (Gesamtbetrag) dem Ausgabefeld transaction_amount (Transaktion_Betrag) zu.
-
Ordnen Sie das Eingabefeld description (Beschreibung) dem Ausgabefeld transaction_code (Transaktion_Code) zu.
-
Klicken Sie auf Validate (Validieren), um das Mapping zu bestätigen.
Der Inhalt des Eingabefelds total_amount (Gesamtbetrag) wird gemäß der für die Datenbank ausgewählten Operation (Einfügen, Aktualisieren, Upsert, Löschen) zum Inhalt des Ausgabefelds transaction_amount (Transaktion_Betrag) hinzugefügt.
Der Inhalt des Eingabefelds description (Beschreibung) wird zum Inhalt des Ausgabefelds transaction_code (Transaktion_Code) hinzugefügt.
Sie können das Ergebnis des Mappings im Bereich
Data preview (Datenvorschau) überprüfen.
-
Wählen Sie vor der Ausführung der Pipeline Upsert auf der Konfigurationsregisterkarte des Snowflake-Datensatzes aus, um die Snowflake-Tabelle zu aktualisieren und die neuen Daten einzufügen. Legen Sie das Feld transaction_amount (Transaktion_Betrag) als Operationsschlüssel fest.
-
Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
-
Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter Ausführungsprofile) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.
Ergebnisse
Sobald die Pipeline ausgeführt wird, werden die aktualisierten Daten in der Snowflake-Datenbanktabelle angezeigt.