Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Crawlen von Datensätzen über die dynamische Auswahl

Im dynamischen Crawler-Modus können Sie einen Filter erstellen und alle Tabellen abrufen, die dem Filter zum jeweiligen Zeitpunkt entsprechen.

Der Hauptvorteil dieses Modus besteht darin, dass in Ihrer Datenbank enthaltene Tabellen durch die Verwendung von Filtern leichter ausfindig gemacht werden können. Außerdem können Sie den Crawler regelmäßig ausführen, um die Qualität der Datensätze zu aktualisieren bzw. um neue Datensätze hinzuzufügen.

Ein Beispiel: Ein Unternehmen verwendet die letzten zwei Ziffern eines bestimmten Jahres in den Namen seiner Datensätze. Die Tabellen mit den Daten sind in einer Snowflake-Datenbank gespeichert und enthalten Informationen zu Kunden und Verkäufen, Berichte usw. Das Unternehmen möchte alle Tabellen mit Daten für das Jahr 2021 in Talend Cloud Data Inventory hinzufügen und darüber hinaus in der Lage sein, über eine einfache erneute Ausführung neu hinzugefügte Datensätze zu importieren bzw. die bestehenden Datensätze zu aktualisieren.

Die beste Vorgehensweise hierzu besteht in der Einrichtung einer Snowflake-Verbindung und dem Crawlen dieser Verbindung unter Rückgriff auf den dynamischen Auswahlmodus.

Vorbereitungen

Sie haben das Fenster der Crawler-Konfiguration wie unter „Crawling für mehrere Datensätze“ beschrieben geöffnet.

Prozedur

  1. Wählen Sie den Modus Dynamic selection (Dynamische Auswahl) aus.
    Der gesamte Inhalt der Snowflake-Verbindung wird erfasst und aufgelistet.
    Dynamische Auswahl des gesamten Inhalts der Snowflake-Verbindung
  2. Klicken Sie auf Add filter (Filter hinzufügen) > Name > Contains (Enthält) und geben Sie _21 ein.
    Die Vorschau der Auswahl enthält jetzt nur Tabellen mit Informationen aus dem Jahr 2021.
    Bei der dynamischen Auswahl angewendeter Filter
    InformationshinweisAnmerkung: Wenn Sie keinen Filter hinzufügen, werden alle Tabellen in der Snowflake-Datenbank ausgewählt.
  3. Klicken Sie auf Next (Weiter) und stellen Sie die Freigabekonfiguration ein.
  4. Klicken Sie auf Next (Weiter) und geben Sie einen Name (Namen) für den Crawler ein, in diesem Fall Snowflake dynamic (Snowflake dynamisch), sowie eine Description (Beschreibung) wie z. B. All tables with data from 2021 (Alle Tabellen mit Daten von 2021).
  5. Klicken Sie auf Run (Ausführen).

Ergebnisse

Der Crawling-Prozess wird gestartet und die Tabellen werden nach und nach als Datensätze in Ihrem Datenbestand hinzugefügt. Sobald das Sample für einen Datensatz verfügbar ist, können Sie mit der Bearbeitung beginnen.

Sollte jetzt in der Snowflake-Datenbank eine Änderung auftreten, z. B. dass eine neue Tabelle mit relevanten Daten für das Jahr 2021 und der Bezeichnung _21 zur Verfügung steht oder die Daten einer bereits vorhandenen Tabelle aktualisiert wurden, dann brauchen Sie ganz einfach nur die Snowflake-Verbindung in der Verbindungsliste auszuwählen und den Crawler erneut auszuführen. Jede neue Tabelle, die dem Namensfilter _21 entspricht, wird dann direkt zur Auswahl hinzugefügt und alle anderen Datensätze werden aktualisiert.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!