Hinzufügen neuer wörterbuchbasierter semantischer Typen - Cloud

Nutzungshandbuch für Talend Cloud Data Preparation

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration und Überwachung > Verwaltung von Verbindungen
Datenqualität und Datenaufbereitung > Bereinigung von Daten
Datenqualität und Datenaufbereitung > Verwaltung von Datensätzen
Last publication date
2024-04-08

Sie können im Menü Semantic types (Semantische Typen) einen semantischen Typ auf der Grundlage eines Wörterbuchs erstellen und ihn in der Liste der erkannten Datentypen hinzufügen.

In Talend Cloud Data Preparation kann zurzeit nicht jeder Typ von Daten einem der vordefinierten semantischen Typen zugeordnet werden. Die Grafschaften im Vereinigten Königreich zum Beispiel werden momentan nicht erkannt.

Ein Beispiel: Sie arbeiten für eine britische Firma und nur mit Kunden, die im Vereinigten Königreich angesiedelt sind. In diesem Beispiel müssen Sie einige Kundendaten bereinigen, z. B. die Namen und E-Mailadressen der Kunden oder die Grafschaft (County), in der sie leben. Der semantische Typ für die Spalte mit den Daten der Grafschaften wird standardmäßig auf city (Stadt) eingestellt. Einige der Daten entsprechen u. U. Städtenamen, Sie möchten aber vielleicht einen semantischen Typ hinzufügen, der Ihren Daten besser entspricht, in diesem Fall den semantischen Typ UK_counties (Grafschaften im Vereinigten Königreich).

Menü der Spalte „County“, geöffnet mit hervorgehobener Option „Column is a Cities“ (Spalte ist Städte)

Sie können diesen neuen semantischen Typ im entsprechenden Menü erstellen. Er wird dann sofort in Ihrer Datenaufbereitung zur Verfügung gestellt, sodass Ihre Daten einem geeigneten Typ zugeordnet werden können.

Prozedur

  1. Klicken Sie auf die Registerkarte Semantic types (Semantische Typen) im linken Menü.

    Die Liste der in Talend Cloud Data Preparation standardmäßig vorhandenen semantischen Typen wird geöffnet. Die vollständige Liste finden Sie unter Vordefinierte semantische Typen.

    Geöffnete Liste der semantischen Standardtypen
  2. Klicken Sie auf die Schaltfläche Add semantic type (Semantischen Typ hinzufügen).

    Das Formular zur Erstellung semantischer Typen wird geöffnet.

  3. Geben Sie im Feld Name einen Namen für Ihren semantischen Typ ein, in diesem Beispiel UK Counties (Grafschaften im Vereinigten Königreich).
  4. Geben Sie im Feld Description (Beschreibung) List of counties in the United Kingdom (Liste der Grafschaften im Vereinigten Königreich) ein.
  5. Wählen Sie in der Dropdown-Liste Type (Typ) den Typ Dictionary (Wörterbuch) aus.

    Sie erstellen diesen semantischen Typ auf der Grundlage einer vollständigen Werteliste.

  6. Der Schalter Use for validation (Für Validierung verwenden) muss aktiviert bleiben.

    Die Verwendung eines regulären Ausdrucks, eines Wörterbuchs oder Compound-Typs für die Validierung bedeutet, dass dadurch ermittelt wird, welche Werte in einer bestimmten Spalte als richtig oder falsch eingestuft werden. Das Ergebnis dieses Validierungsprozesses wird in der Qualitätsleiste jeder Spalte in Ihren Datensätzen angezeigt.

    In jedem Fall werden reguläre Ausdrücke oder Wörterbücher mit Werten zur Werteerkennung verwendet. Dabei wird die prozentuale Übereinstimmung zwischen den Referenzwerten und Ihren Werten berechnet, um den semantischen Typ jeder Spalte festzulegen.

    Wenn Sie den Schalter in diesem Beispiel deaktivieren würden, würde das Wörterbuch lediglich zur Datenerkennung eingesetzt werden, und kein Wert würde als ungültig eingestuft werden.

  7. Wählen Sie in der Dropdown-Liste Validation criterion (Validierungskriterium) die Einschränkungsregel aus, die angewendet werden soll, in diesem Beispiel Exact value (Genauer Wert).
    • Simplified text (Vereinfachter Text): Satzzeichen, Leerzeichen, Groß-/Kleinschreibung und Akzente werden bei der Validierung ignoriert. Beispiel: Pâté-en-croûte ist Ihr Referenzwert. In diesem Fall wird pate-eN-cRoute als gültig eingestuft, Pâté n croûte jedoch nicht.
    • Ignore case and accents (Groß-/Kleinschr. und Akzente ignorieren): Groß- und Kleinschreibung sowie Akzente werden bei der Validierung nicht berücksichtigt. Beispiel: Pâté-en-croûte ist Ihr Referenzwert. In diesem Fall wird pate-en-croute als gültig eingestuft, Pâté n croûte jedoch nicht.
    • Exact value (Genauer Wert): Die Validierungsregel mit der höchsten Einschränkung. Die Daten werden nur als gültig betrachtet, wenn eine exakte Übereinstimmung mit dem Referenzwert gegeben ist.
  8. Um die Liste der Grafschaften hinzuzufügen, die dann den semantischen Typ UK Counties (Grafschaften im Vereinigten Königreich) im Feld Values (Werte) bilden werden, stehen Ihnen folgende Möglichkeiten zur Auswahl:
    • Fügen Sie jeden Wert manuell hinzu. Klicken Sie auf das plus-Symbol, um einen Wert einzugeben, und anschließend auf das Symbol check (Prüfen), um die Änderung zu bestätigen. Wiederholen Sie diesen Vorgang für jedes Land, das der Liste hinzugefügt werden soll.
    • Importieren Sie eine Datei mit der Klartextliste der Grafschaften im Vereinigten Königreich. Klicken Sie auf die Schaltfläche import (Importieren), um die hochzuladende Datei auszuwählen. Das Dateiformat ist nicht von Bedeutung, solange der Inhalt in Klartext ist.
      Anmerkung: Sie können Inhalt bis 10 MB pro Mandant in Talend Dictionary Service hochladen.

      Laden Sie folgende Datei herunter und extrahieren Sie sie: dict_uk_counties.zip.

      Geöffnete Textdatei

      Geben Sie jeden einzelnen Wert auf einer separaten Zeile ein. Werte auf derselben Zeile, abgesetzt durch Kommas, werden als Synonyme eingestuft.

      Beim Import einer Liste aus einer Datei müssen nicht-alphabetische Werte durch Anführungszeichen geschützt werden, andernfalls wird die Datei zurückgewiesen.

    Wertduplikate sind nicht zulässig. Beim manuellen Hinzufügen von Werten wird eine Prüfung durchgeführt. Und beim Import einer Datei wird automatisch ein Schritt zur Entfernung von Duplikaten durchgeführt.

    Die komplette Liste der Grafschaften wurde hinzugefügt.

  9. Klicken Sie auf Save and publish (Speichern und veröffentlichen), um den neuen semantischen Typ an den Talend Dictionary Service-Server zu senden und ihn den Benutzern von Talend Cloud Data Preparation zur Verfügung zu stellen.

    Durch Klicken auf Save as draft (Als Entwurf speichern) wird der semantische Typ in Talend Dictionary Service gespeichert, jedoch nicht an die Talend-Webanwendungen übertragen. Dadurch können Sie bestimmen, wann der semantische Typ öffentlich gemacht werden soll.

    Der Typ UK Counties (Grafschaften im Vereinigten Königreich) ist jetzt in der Liste der semantischen Typen mit dem Status Published (Veröffentlicht) verfügbar.

    Typ „UK Counties“ veröffentlicht („Published“)

    Die Änderung von semantischen Typen wird für jeden neuen, von Ihnen importierten Datensatz direkt in Talend Cloud Data Preparation wirksam. Für bereits bestehende Datensätze müssen Sie den Spaltentyp manuell ändern bzw. den Datensatz neu importieren.

  10. Kehren Sie zu Ihrem Datensatz mit den Namen der Grafschaften zurück.
  11. Klicken Sie auf das Menüsymbol in der Spaltenüberschrift County (Grafschaft) und wählen Sie Column is a... (Spalte enthält...) > UK Counties (Grafschaften im Vereinigten Königreich) aus.

    Der Spaltentyp entspricht jetzt der neu erstellten Kategorie.

    Typ „UK Counties“ hervorgehoben mit 100 %

Ergebnisse

Ihren Daten wurde jetzt der von Ihnen manuell in Talend Dictionary Service erstellte semantische Typ UK Counties (Grafschaften im Vereinigten Königreich) zugeordnet. Ab jetzt wird neuen Datensätzen mit britischen Grafschaften beim Import automatisch der zutreffende Typ zugeordnet.