Zu Hauptinhalt springen

Konzepte von Talend Cloud Data Inventory

Die nachstehenden Definitionen sollen Ihnen dabei helfen, die Hauptkonzepte von Talend Cloud Data Inventory zu verstehen.

  • Verbindung: Verbindungen sind Umgebungen oder Systeme, in denen Datensätze gespeichert werden, darunter Datenbanken, Dateisysteme, verteilte Systeme oder Plattformen usw. Die Verbindungsinformationen für diese Systeme müssen nur einmal erfasst werden, da sie wiederverwendbar sind.
  • Datensatz: Datensätze sind Datensammlungen. Es kann sich um Datenbanktabellen, Dateinamen, Topics (Kafka), Dateipfade (HDFS) usw. handeln. Außerdem können Sie Testdatensätze erstellen, die Sie manuell eingeben und in einer Testverbindung speichern, und sogar lokale Dateien als Datensätze importieren. Mehrere Datensätze können mit demselben System (1:n-Konnektivität) verbunden und in wiederverwendbaren Verbindungen gespeichert werden.
  • Sample: Ihre Daten werden in Form eines Samples angezeigt, das aus den Metadaten der Datensätze abgerufen wird.
  • Semantischer Typ: Der semantische Typ einer Spalte oder eines Datensatzes entspricht dem Typ der Daten, die sich darin befinden, z. B. Namen, Postleitzahlen, Telefonnummern, Koordinaten usw. Alle Talend Cloud-Anwendungen berücksichtigen die Semantik Ihrer Daten, d. h. bei der Anzeige der Sample-Daten werden diese automatisch anhand der standardmäßigen oder der von Ihnen selbst erstellten semantischen Typen kategorisiert.
  • Talend Trust Score™: Globaler Qualitätsindikator, der mehrere Metriken in einem Wert zwischen 0 und 5 zusammenfasst.
  • Benutzerdefiniertes Attribute: Auf Ihre Datensätze können benutzerdefinierte Attribute angewendet werden. Sie ermöglichen das Hinzufügen von Metadateninformationen nach vordefinierten Regeln und können zum Durchsuchen und Sortieren der Datensätze verwendet werden.
  • Tags: Diese zweite Tagging-Methode ermöglicht Ihnen, Ihren Talend Cloud-Objekten freien Text als Metadateninformationen hinzuzufügen, so als würden Sie einen Merkzettel anbringen.
  • Cloud Engine: Die Cloud Engine ist ein integrierter „Runner“, der den Benutzern die Verarbeitung von Daten erleichtert, da keine Verarbeitungs-Engines eingerichtet werden müssen. Mit dieser Engine können zwei Objekte parallel ausgeführt werden. Für eine erweiterte Datenverarbeitung wird die Installation einer sicheren Remote Engine empfohlen.
  • Remote Engine: Bei einer Remote Engine handelt es sich um eine sichere Ausführungs-Engine, auf der Objekte sicher ausgeführt werden können. Sie erhalten Kontrolle über Ihre Ausführungsumgebung und Ressourcen, da Sie die Engine in Ihrer eigenen Umgebung (Virtual Private Cloud oder On-Premise) erstellen und konfigurieren können.

    Eine Remote Engine gewährleistet Folgendes:

    • Datenverarbeitung in einer sicheren und geschützten Umgebung, da Talend nie Zugriff auf Ihre Daten und Ressourcen erhält.
    • Optimale Leistung und Sicherheit durch erhöhte Datenlokalität anstelle der Übertragung umfangreicher Datenmengen zur Verarbeitung.
Beziehung zwischen Verbindungen, Datensätzen und anderen Entitäten
Beziehung zwischen Verbindungen, Datensätzen und anderen Entitäten

Über die Verbindungsmetadaten werden Ihre Daten abgerufen und können als Sample visualisiert werden. Im Anschluss daran können Sie andere Tools wie Talend Cloud Data Preparation oder Talend Cloud Pipeline Designer für die weitere Transformation der Daten heranziehen.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!