Konzepte von Talend Data Preparation - Cloud

Nutzungshandbuch für Talend Cloud Data Preparation

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration und Überwachung > Verwaltung von Verbindungen
Datenqualität und Datenaufbereitung > Bereinigung von Daten
Datenqualität und Datenaufbereitung > Verwaltung von Datensätzen
Last publication date
2024-04-18
Die folgenden Definitionen helfen Ihnen, die Hauptkonzepte in Talend Data Preparation zu verstehen.
  • Verbindung: Verbindungen sind Umgebungen oder Systeme, in denen Datensätze gespeichert werden, darunter Datenbanken, Dateisysteme, verteilte Systeme oder Plattformen usw. Die Verbindungsinformationen für diese Systeme müssen nur einmal erfasst werden, da sie wiederverwendbar sind.
  • Datensatz: Ein Datensatz enthält die Rohdaten, die als Rohmaterial für eine oder mehrere Datenaufbereitungen verwendet werden können. Datensätze werden als Tabellen dargestellt, auf die Sie Rezeptschritte anwenden können, ohne die Originaldaten zu verändern. Sie können in verschiedenen Datenaufbereitungen wiederverwendet werden.
  • Sample: Ihre Daten werden in Form eines Samples angezeigt, das aus den Metadaten der Datensätze abgerufen wird.
  • Datenaufbereitung: Eine Datenaufbereitung verknüpft einen Datensatz mit einem Rezept: Es handelt sich um das Endergebnis, das Sie mit Ihren Daten erzielen möchten. Sie können dieses Ergebnis als Datei exportieren oder es mit Datenzielen verbinden. Für eine Datenaufbereitung wird ein Rezept auf einen Datensatz angewendet, um ein bestimmtes Ergebnis zu erzielen. Der Originaldatensatz wird dabei nie geändert.
  • Rezept: Ein Rezept wird definiert als „eine Gruppe von Anweisungen mit einer Liste von Bestandteilen für die Erstellung bzw. Vorbereitung von etwas“. In Talend Cloud Data Preparation handelt es sich bei den Bestandteilen um die Rohdaten, als Datensätze bezeichnet, und die Anweisungen entsprechen der Gruppe von Funktionen, die auf den Datensatz angewendet werden. In seiner visuellen Darstellung entspricht das Rezept einer Top-Down-Abfolge von Funktionen im linken zusammenklappbaren Fensterbereich. Ein Rezept ist über eine Datenaufbereitung mit einem Datensatz verbunden. Jede Aktualisierung des Rezepts wird automatisch in der Datenaufbereitung gespeichert.
  • Funktion: Eine Funktion ist eine auf eine Zeile, eine Spalte oder den gesamten Datensatz angewendete Aktion, wie beispielsweise das Entfernen leerer Zeilen. Wenn Funktionen im Rahmen einer Datenaufbereitung angewendet werden, werden die Originaldaten dadurch nicht geändert. Die angewendeten Funktionen werden in der Reihenfolge ihrer Anwendung in Rezepten aufgezeichnet.
  • Semantischer Typ: Der semantische Typ einer Spalte oder eines Datensatzes entspricht dem Typ der Daten, die sich darin befinden, z. B. Namen, Postleitzahlen, Telefonnummern, Koordinaten usw. Alle Talend Cloud-Anwendungen berücksichtigen die Semantik Ihrer Daten, d. h. bei der Anzeige der Sample-Daten werden diese automatisch anhand der standardmäßigen oder der von Ihnen selbst erstellten semantischen Typen kategorisiert.
  • Cloud Engine for Design: Die Cloud Engine for Design ist ein integrierter „Runner“, der den Benutzern die Verarbeitung von Daten erleichtert, da keine Verarbeitungs-Engines eingerichtet werden müssen. Mit dieser Engine können zwei Objekte parallel ausgeführt werden. Für eine erweiterte Datenverarbeitung wird die Installation der sicheren Remote Engine Gen2 empfohlen.
  • Remote Engine Gen2: Bei einer Remote Engine Gen2 handelt es sich um eine sichere Ausführungs-Engine, auf der Objekte sicher ausgeführt werden können. Sie erhalten Kontrolle über Ihre Ausführungsumgebung und Ressourcen, da Sie die Engine in Ihrer eigenen Umgebung (Virtual Private Cloud oder On-Premise) erstellen und konfigurieren können.

    Eine Remote Engine gewährleistet Folgendes:

    • Datenverarbeitung in einer sicheren und geschützten Umgebung, da Talend nie Zugriff auf Ihre Daten und Ressourcen erhält.
    • Optimale Leistung und Sicherheit durch erhöhte Datenlokalität anstelle der Übertragung umfangreicher Datenmengen zur Verarbeitung.

Beziehung zwischen Verbindungen, Datensätzen und Datenaufbereitungen:

Darstellung der Beziehung zwischen Verbindungen, Datensätzen und Datenaufbereitungen