Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Dynamische Verwendung der Daten aus einem anderen Datensatz

Die Lookup-Funktion vergleicht Daten aus der aktuellen Datenaufbereitung mit den entsprechenden Daten in einem Referenzdatensatz, sodass Sie diese Referenzdaten in Ihrer Datenaufbereitung hinzufügen können.

InformationshinweisTipp: Talend empfiehlt, die Lookup-Funktion für Datensätze von bis zu 100.000 Zeilen und 10 Spalten zu verwenden.
Wenn Sie die Lookup-Funktion in Talend Cloud Data Preparation verwenden, werden die zuvor mit Talend Cloud Data Inventory im Lookup-Datensatz hinzugefügten Spaltenbeschreibungen in der Datenaufbereitung angezeigt.
In diesem Beispiel arbeiten Sie mit einer Datenaufbereitung, die Informationen zu den US-Bundesstaaten enthält, in denen Ihre Kunden leben, allerdings nur in Form eines Codes mit zwei Buchstaben. Parallel dazu verfügen Sie über einen zweiten Datensatz, in dem die 2-stelligen US-Bundesstaat-Codes den vollständigen Namen der Bundesstaaten gegenübergestellt sind. Sie können die Lookup-Funktion nutzen, um diese Informationen abzurufen und sie in Ihrer Datenaufbereitung hinzuzufügen.
Datensatz mit US-Bundesstaaten in Form von 2-stelligen Codes

Vorbereitungen

Eine zurzeit vorliegende Einschränkung verhindert die Verwendung von Datensätzen in einem Lookup-Vorgang über die folgenden Verbindungen:
  • Google Cloud Storage (Cloud-Dateisysteme)
  • Azure Synapse (Datenbank)
  • Google BigQuery (Databank)
  • Google BigTable (Databank)
  • Marketo (Business-Anwendungen)
  • Google Analytics (Business-Anwendungen)
  • NetSuite (Business-Anwendungen)
  • Workday (Business-Anwendungen)
  • Kafka (Messaging)
  • RabbitMQ (Messaging)

Prozedur

  1. Öffnen Sie die Datenaufbereitung.
  2. Klicken Sie auf die Lookup-Schaltfläche, um das Lookup-Fenster zu öffnen.

    Hervorgehobene Lookup-Schaltfläche

  3. Klicken Sie auf Select dataset (Datensatz auswählen), um einen bereits vorhandenen Datensatz auszuwählen.
    Geöffneter Lookup-Bereich
  4. Wählen Sie den Datensatz aus, den Sie für den Lookup-Vorgang verwenden möchten.
    In diesem Fall müssen Sie den Datensatz hinzufügen, der die Liste der 2-stelligen Bundesstaat-Codes mit den entsprechenden Namen enthält. Er muss zuvor in Talend Cloud Data Preparation importiert werden.
    Ausgewählter Datensatz mit der Liste der 2-stelligen Bundesstaat-Codes
  5. Klicken Sie auf Select (Auswählen).
  6. Wählen Sie in der Dropdown-Liste Current preparation (Aktuelle Datenaufbereitung) und Lookup dataset (Lookup-Datensatz) die in Ihrer Hauptdatenaufbereitung und Ihrem Referenzdatensatz übereinstimmenden Spalten aus, in diesem Beispiel die Spalten state_code (Bundesstaat_Code) und States Code (Bundesstaat-Codes).
    Um einen Lookup-Vorgang durchzuführen, muss sowohl in der Datenaufbereitung als auch in dem Datensatz, die Sie beide zusammenführen möchten, mindestens eine Spalte mit übereinstimmenden Daten vorhanden sein.
    Ausgewählte übereinstimmende Spalten
  7. Wählen Sie in der Dropdown-Liste Columns to add (Hinzuzufügende Spalten) die Spalte mit den Bundesstaaten aus, die dem aktuellen Datensatz hinzugefügt werden sollen, in diesem Beispiel State (Bundesstaat).
    Importierte Spalte ausgewählt
  8. Bestimmen Sie, ob die vorgenommenen Änderungen nur auf die ausgefilterten oder auf alle Zeilen angewendet werden sollen.
  9. Klicken Sie auf Submit (Senden). Für jeden zwischen der Hauptdatenaufbereitung und dem Referenzdatensatz übereinstimmenden Bundesstaat-Code wird der entsprechende Name abgerufen.

    Die Lookup-Funktion verhält sich folgendermaßen:

    • Wenn ein Wert sowohl in Ihrer Hauptdatenaufbereitung als auch im Referenzdatensatz vorhanden ist, werden zusätzliche Informationen abgerufen.
    • Ist ein Wert nur in Ihrer Datenaufbereitung, jedoch nicht im Referenzdatensatz vorhanden, ergibt der Lookup-Vorgang eine leere Zelle in der resultierenden Spalte.
    • Wenn für einen Wert im Referenzdatensatz keine Übereinstimmung in der Hauptdatenaufbereitung gefunden wird, werden ganz einfach keine zusätzlichen Informationen abgerufen.

    Die Logik hinter dem Lookup-Vorgang in Talend Cloud Data Preparation entspricht einem linken äußeren Join (Left Outer Join) im Sinne der Venn-Diagramme:

    Diagramm des linken äußeren Join (Left Outer Join)

    Wenn sie auf unser Beispiel angewendet wird, bedeutet das, dass Sie die gemeinsamen Informationen über Bundesstaat-Codes zur Erstellung eines Joins verwendet und nur die nützlichen Informationen aus dem zweiten Datensatz abgerufen haben, um den ersten Datensatz anzureichern.

Ergebnisse

Ausgehend vom Ergebnis des Lookup-Vorgangs wird eine neue Spalte mit den vollständigen Bundesstaatnamen erstellt. Jeder Kunde wurde, sofern möglich, dem entsprechenden Bundesstaatnamen zugeordnet.
Datensatz mit den vollständigen Namen der US-Bundesstaaten

Ein anderes Verhalten der Lookup-Funktion, das im vorhergehenden Beispiel nicht illustriert wurde, betrifft die Handhabung möglicher Duplikate und leerer Werte aus einem Referenzdatensatz.

Im folgenden Beispiel fehlt einer der Bundesstaat-Codes in Ihrer Datenaufbereitung und Ihr Referenzdatensatz enthält einen doppelten Eintrag für den Bundesstaat-Code NY. Im Rahmen des Beispiels verfügt NY über zwei mögliche Werte: New York und Nueva York, allerdings könnten beide Einträge durchaus denselben Wert annehmen.

Datensatz nach dem Lookup-Vorgang

Das obige Ergebnis wurde durch Anwendung des folgenden Verhaltens erreicht:

  • Wenn derselbe Wert mehrmals im Referenzdatensatz vorhanden ist, wird nur die erste Instanz abgeglichen, in diesem Fall Nueva York.
  • Eine leere Zelle in Ihrer Datenaufbereitung wird einer leeren Zelle zugeordnet

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!