Verwenden unterschiedlicher Datensätze bei der Ausführung mithilfe von Kontextvariablen - Cloud

Nutzungshandbuch für Talend Cloud Pipeline Designer

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Administration und Überwachung > Überwachung von Ausführungen
Administration und Überwachung > Überwachung von Logs
Data Governance > Datenfilterung
Datenqualität und Datenaufbereitung > Datenfilterung
Datenqualität und Datenaufbereitung > Verwaltung von Datensätzen
Design und Entwicklung > Konzeption von Pipelines
Implementierung > Implementierung > Pipeline-Ausführung
Last publication date
2024-02-12

In diesem Szenario werden Kontextvariablen hinzugefügt, um beide Datensätze zu überschreiben, die bei der Ausführung als Quelle und Ziel verwendet werden.

Pipeline mit einem HTTP-Client-Datensatz mit einer Kontextvariable als Pipeline-Quelle, einem Filterprozessor und einem BigQuery-Datensatz mit einer Kontextvariable als Pipeline-Ziel.

Vorbereitungen

  • Sie haben zuvor eine Verbindung zu dem System erstellt, in dem Ihre Quelldaten gespeichert sind, in diesem Fall eine HTTP-Client-Verbindung.

    Die Basis-URL der Verbindung lautet folgendermaßen: https://datausa.io/.

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    In diesem Beispiel handelt es sich um öffentliche Daten aus den USA, einschließlich Bevölkerungsstatistiken.

    Der HTTP-Client-Datensatz weist folgende Eigenschaften auf:
    • HTTP-Methode: GET
    • Pfad: /api/data
    • Abfrageparameter: Name: drilldowns, Wert: Nation - Name: measures (Maßstäbe), Wert: Population (Bevölkerung)
    • Format des Antwort-Bodys: JSON
    • Teil der Antwort extrahieren: .data
    • Zurückgegebener Inhalt: Body
  • Sie haben ebenfalls die Zielverbindung erstellt, in diesem Fall eine Google BigQuery-Verbindung, sowie einen BigQuery-Datensatz mit dem Namen Nation_statistics (Landesstatistiken). Die BigQuery-Tabelle wird bei der Ausführung erstellt und enthält US-Statistiken pro Jahr.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Filter US population stats on year >=2015 (US-Bevölkerungsstatistiken für Jahr >=2015 ausfiltern)
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten auswählen können, in diesem Beispiel get US stats (US-Statistiken abrufen).
  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  5. Klicken Sie auf Plus und fügen Sie einen Filter-Prozessor zur Pipeline hinzu. Das Konfigurationsfenster wird geöffnet.
  6. Geben Sie einen aussagekräftigen Namen für den Prozessor ein, z. B. filter on year >= 2015 (Nach Jahr >= 2015 filtern).
  7. Führen Sie im Filterbereich Folgendes durch:
    1. Wählen Sie .ID_Year (.ID_Jahr) im Bereich Input (Eingabe) aus, da Sie alle Dateneinträge ausfiltern möchten, die dem Jahr entsprechen, in dem die Daten erfasst wurden.
    2. Wählen Sie None (Keine) in der Liste Optionally select a function to apply (Optional anzuwendende Funktion auswählen) sowie >= in der Liste Operator aus und geben Sie 2015 in der Liste Value (Wert) ein, da die nach dem Jahr 2015 erfassten Statistikdaten ausgefiltert werden sollen.
  8. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Wie Sie sehen, wurden die Dateneinträge gefiltert und nur 6 Dateneinträge entsprechen den von Ihnen definierten Kriterien.

    Vorschaufenster mit den Eingabedaten vor und den Ausgabedaten nach der Filteroperation
  9. Klicken Sie auf das Element ADD DESTINATION (ZIEL HINZUFÜGEN) für die Pipeline, um das Fenster zur Auswahl der BigQuery-Tabelle zu öffnen, die die ausgefilterten Daten aufnehmen soll.
  10. Geben Sie einen aussagekräftigen Namen für das Ziel ein, z. B. Nation stats table (Tabelle der Landesstatistiken), und wählen Sie Create table if not exists (Tabelle erstellen, wenn nicht vorhanden) in der Liste Table operation (Tabellenoperation) aus, da Sie die Tabelle Nation_statistics (Landesstatistiken) erstellen und bei der Ausführung Daten darin aufnehmen möchten.
  11. (Optional) Wenn Sie Ihre Pipeline zu diesem Zeitpunkt ausführen, können Sie in den Logs sehen, dass die gemäß dem von Ihnen festgelegten Filter ausgefilterten Dateneinträge übergeben wurden, und die neue, in Ihrem Google BigQuery-Konto erstellte Tabelle Nation_statistics (Landesstatistiken) wird angezeigt. Die neue Tabelle enthält die 6 ausgefilterten Dateneinträge mit den in den USA erfassten Statistikdaten.
    Zur Laufzeit erstellte BigQuery-Tabelle namens „Nation_statistics“ mit 6 Dateneinträgen zu den US-Statistiken
  12. Gehen Sie zurück zur Registerkarte Dataset (Datensatz) der Quelle US data - stats (US-Daten - Statistiken), um eine Variable hinzuzufügen und zuzuweisen:
    Konfigurationsfenster der HTTP-Client-Quelle mit hervorgehobenem X-Symbol zum Hinzufügen von Kontextvariablen neben dem Wert „Nation“
    1. Klicken Sie in Query parameters (Abfrageparameter) auf das Symbol Context variable (Kontextvariable) neben dem Parameter Value (Wert) von drilldowns, um das Fenster [Add variable] (Variable hinzufügen) zu öffnen.
    2. Geben Sie der Variable einen Namen, z. B. State statistics (Bundesstaat Statistiken).
    3. Geben Sie den Variablenwert ein, mit dem die abzurufende Standardressource überschrieben werden soll, in diesem Fall State (Bundesstaat).
    4. Geben Sie nach Bedarf eine Beschreibung ein und klicken Sie dann auf Add (Hinzufügen).
    5. Die Variable ist damit erstellt. Sie werden jetzt zum Fenster [Assign a variable] (Variable zuweisen) weitergeleitet, in dem alle Kontextvariablen aufgeführt sind. Wählen Sie Ihre aus und klicken Sie auf Assign (Zuweisen).
      Ihre Variable und der zugehörige Wert werden dem Abfrageparameter drilldowns des HTTP-Client-Datensatzes zugewiesen, was bedeutet, dass der Parameterwert State (Bundesstaat) den zuvor definierten Parameterwert Nation überschreibt. Anstatt der Landesstatistiken pro Jahr werden jetzt die Bundesstaat-Statistiken pro Jahr abgerufen.
    6. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  13. Gehen Sie jetzt zur Registerkarte Dataset (Datensatz) des Ziels Nation stats table (Tabelle der Landesstatistiken), um eine Variable hinzuzufügen und zuzuweisen:
    Konfigurationsfenster des BigQuery-Ziels mit hervorgehobenem X-Symbol zum Hinzufügen von Kontextvariablen neben dem Wert „Nation_statistics“
    1. Klicken Sie auf das Symbol Context variable (Kontextvariable) neben dem Parameter Table name (Tabellenname), um das Fenster [Add variable] (Variable hinzufügen) zu öffnen.
    2. Geben Sie der Variable einen Namen, z. B. State_table (Bundesstaat_Tabelle).
    3. Geben Sie den Variablenwert ein, mit dem die Standardtabelle überschrieben werden soll, in diesem Fall State_statistics (Bundesstaat_Statistiken).
    4. Geben Sie nach Bedarf eine Beschreibung ein und klicken Sie dann auf Add (Hinzufügen).
    5. Die Variable ist damit erstellt. Sie werden jetzt zum Fenster [Assign a variable] (Variable zuweisen) weitergeleitet, in dem alle Kontextvariablen aufgeführt sind. Wählen Sie Ihre aus und klicken Sie auf Assign (Zuweisen).
      Fenster „Assign a variable (Variable zuweisen)“ mit ausgewählter neuer Variable und aktivierter Schaltfläche „Assign (Zuweisen)“
      Ihre Variable und der zugehörige Wert werden dem Parameter Table name (Tabellenname) des BigQuery-Datensatzes zugewiesen, was bedeutet, dass die Tabelle State (Bundesstaat) den zuvor definierten Tabellennamen Nation überschreibt. Anstatt dass Daten in die Tabelle Nation aufgenommen werden, werden jetzt Daten in die Tabelle State (Bundesstaat) eingefügt.
    6. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  14. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  15. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt, die Daten werden gefiltert, und die Pipeline entspricht den Kontextvariablen, die Sie dem Quell- und dem Zieldatensatz zugewiesen haben:
  • In den Logs zur Pipeline-Ausführung werden die Kontextvariablen angegeben, die bei der Ausführung zum Abrufen der US-Bundesstaat-Daten und zur Erstellung der Tabelle State (Bundesstaat) in BigQuery verwendet wurden. In die neue Tabelle wurden 312 Dateneinträge aufgenommen.
    Logs-Fenster mit der Angabe, dass 312 Dateneinträge erzeugt wurden und die zum Abrufen der US-Bundesstaat-Daten und zur Erstellung der „State“-Tabelle in BigQuery verwendeten Kontextvariablen zur Laufzeit angewendet wurden.
  • In Ihrem Google BigQuery-Konto wird die neu erstellte Tabelle State_statistics (Bundesstaat_Statistiken) angezeigt, die die ausgefilterten Daten enthält (nach 2015 erfasste Bundesstaat-Daten).
    Zur Laufzeit erstellte BigQuery-Tabelle namens „State_statistics“ mit allen Dateneinträgen zu den Bundesstaat-Statistiken