Informationen über Talend Trust Score™ mit Snowflake - Cloud

Talend Cloud Data Inventory mit Snowflake über Partner Connect

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
Data Governance
Last publication date
2024-02-09

Die native Verarbeitung der Datenqualität in Snowflake ist ein Tool, das die Genauigkeit und Zuverlässigkeit Ihrer Daten sicherstellt.

Es führt eine umfassende Analyse Ihres Datensatzes durch und prüft Gültigkeit und Vollständigkeit. Die Prüfung der Datenqualität wird für die gesamte Tabelle in Snowflake durchgeführt.

Bei der Gültigkeitsprüfung werden die Datenqualitätsregeln berücksichtigt. Weitere Informationen finden Sie unter Was ist eine Datenqualitätsregel?.

In Talend Cloud Data Inventory können Sie anhand der Entwicklung des Talend Trust Score™ die Qualität Ihrer Datensätze im Laufe der Zeit nachverfolgen.
Das nachstehende Diagramm vermittelt Ihnen einige Details zur Art der Verarbeitung des Talend Trust Score™.
Diagramm zur Illustration der Verarbeitung des Talend Trust Score™.
Wichtig:
  • Talend Cloud Data Inventory ist kompatibel mit Snowflake in AWS, GCP und Microsoft Azure.
  • Um Snowflake verwenden zu können, benötigen Sie bestimmte Privilegien. Informationen hierzu finden Sie in der Snowflake-Dokumentation.
  • Die Verwendung von Snowflake mit Talend Cloud Data Inventory wirkt sich auf Ihre Snowflake-Verarbeitungsgebühren aus.
  1. Beim Hinzufügen eines Datensatzes über eine Snowflake-Verbindung wird eine Kopie der DQ Java-Bibliotheken und des semantischen Wörterbuchs an Snowflake gesendet, damit die Gültigkeitsprüfungen durchgeführt werden können.
    Stellen Sie sicher, dass der Pushdown-Parameter in der JDBC-URL der Snowflake-Verbindung enthalten ist. Beispiel:
    jdbc:snowflake://account.snowflakecomputing.com/?db=MY_DB&schema=PUBLIC&warehouse=MY_WAREHOUSE_WH&runProfile=sql 
    Weitere Informationen finden Sie unter Hinzufügen des Pushdown-Parameters zu einer Snowflake-Verbindung.
    Tipp: Sie können den Crawler heranziehen, um mehrere Tabellen und Ansichten abzurufen. Mithilfe der Talend-APIs können Sie die Qualitätsverarbeitung für zudem automatisieren. Weitere Informationen finden Sie unter Planen einer Crawler-Ausführung.
  2. Die DQ Java-Bibliotheken werden als Java-UDFs definiert.

    Wenn Sie in Talend Cloud Data Inventory Datenqualitätsregeln auf einen Datensatz anwenden, werden diese gleichzeitig nativ in Snowflake über die UDFs verarbeitet.

  3. Zur Berechnung des Talend Trust Score™ in Snowflake werden folgende Schritte ausgeführt:
    1. Über die semantische Erkennung werden Art und Format der Daten ermittelt. Für jede Spalte des Datensatzes wird der semantische Typ geprüft. Dazu wird ein Sample aus bis zu 10.000 Zeilen analysiert. Standardmäßig enthält das Sample die ersten Zeilen und wird deshalb auch als Head Sample bezeichnet. Die Zeilen können ebenfalls nach dem Zufallsprinzip ausgewählt werden. Dann wird das Sample als Random Sample bezeichnet.

    2. Qualität und Vollständigkeit der Daten: Die Datenelemente werden mit den semantischen Typen verglichen, um die gültigen und ungültigen Felder zu ermitteln. Wenn Felder einem semantischen Typ nicht entsprechen, dann werden sie mit den nativen Typen verglichen.

      Über die JDBC-URL in Talend Cloud Data Inventory werden Gültigkeit und Vollständigkeit für die gesamte Tabelle in Snowflake verarbeitet.

      In der Datenübersicht in Talend Cloud Data Inventory können Sie eine Vorschau für ein Sample der Snowflake-Tabelle anzeigen und gültige sowie ungültige Datenelemente abrufen. Das Sample umfasst bis zu 10.000 Datenelemente.

      Die Datenqualitätsleisten in der Spalte und die Datensatz-Header geben die Qualität der gesamten Tabelle an.

    3. Talend Trust Score™: Für den gesamten Datensatz in Snowflake wird die Gültigkeit und Vollständigkeit berechnet. In Talend Cloud Data Inventory finden Sie den Verlauf, die Entwicklung des Talend Trust Score™ wird in der Datensatzübersicht ausgewiesen.

      Sie können den Talend Trust Score™ ebenfalls ausgehend von der Datensatzliste und der Datenkonsole abrufen.

  4. Das Sample wird an Talend Cloud Data Inventory gesendet und der Talend Trust Score™ wird wie folgt für den ganzen Datensatz berechnet:
    • Gültigkeit und Vollständigkeit werden nativ in Snowflake für die gesamte Tabelle verarbeitet. Die Konformität mit den Datenqualitätsregeln wird ebenfalls für die ganze Tabelle ermittelt.
    • Beliebtheit, Auffindbarkeit und Verwendbarkeit werden in Talend Cloud Data Inventory berechnet. Weitere Informationen zu jeder Achse finden Sie unter Prüfen des Talend Trust Score™.

Sie verfügen jetzt über einen Talend Trust Score™ mit fünf Achsen für Ihren Datensatz.