Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Hinzufügen neuer wörterbuchbasierter semantischer Typen

Sie können im Menü Semantic types (Semantische Typen) einen semantischen Typ auf der Grundlage eines Wörterbuchs erstellen und ihn in der Liste der erkannten Datentypen hinzufügen.

In der Anwendung kann zurzeit nicht jeder Typ von Daten einem der vordefinierten semantischen Typen zugeordnet werden. Die Grafschaften im Vereinigten Königreich zum Beispiel werden momentan nicht erkannt.

Ein Beispiel: Sie arbeiten für eine britische Firma und nur mit Kunden, die im Vereinigten Königreich angesiedelt sind. In diesem Beispiel haben Sie einen Datensatz mit einigen Kundendaten erstellt, beispielsweise Name, E-Mailadresse oder Wohnland der Kunden. Der semantische Typ für die Spalte mit den den der Grafschaften wird standardmäßig auf city (Stadt) eingestellt. Einige der Daten entsprechen u. U. Städtenamen, Sie möchten aber vielleicht einen semantischen Typ hinzufügen, der Ihren Daten besser entspricht, in diesem Fall den semantischen Typ UK_counties (Länder im Vereinigten Königreich).

Sie können diesen neuen semantischen Typ im entsprechenden Menü erstellen. Er wird dann sofort in Ihrem Datensatz zur Verfügung gestellt, sodass Ihre Daten einem geeigneten Typ zugeordnet werden können.

Prozedur

  1. Öffnen Sie über den linken Seitenbereich der Homepage die Ansicht Semantic type (Semantischer Typ).
    Die Liste der in Talend Dictionary Service standardmäßig vorhandenen semantischen Typen wird geöffnet.
  2. Klicken Sie auf die Schaltfläche Add semantic type (Semantischen Typ hinzufügen).
    Das Formular zur Erstellung semantischer Typen wird geöffnet.
  3. Geben Sie im Feld Name einen Namen für Ihren semantischen Typ ein, in diesem Beispiel UK Counties (Grafschaften im Vereinigten Königreich).
  4. Geben Sie im Feld Description (Beschreibung) List of counties in the United Kingdom (Liste der Grafschaften im Vereinigten Königreich) ein.
  5. Wählen Sie in der Dropdown-Liste Type (Typ) den Typ Dictionary (Wörterbuch) aus.
    Sie erstellen diesen semantischen Typ auf der Grundlage einer vollständigen Werteliste.
  6. Der Schalter Use for validation (Für Validierung verwenden) muss aktiviert bleiben.

    Die Verwendung eines regulären Ausdrucks, eines Wörterbuchs oder Compound-Typs für die Validierung bedeutet, dass dadurch ermittelt wird, welche Werte in einer bestimmten Spalte als richtig oder falsch eingestuft werden. Das Ergebnis dieses Validierungsprozesses wird in der Qualitätsleiste jeder Spalte in Ihren Datensatz-Samples angezeigt.

    In jedem Fall werden reguläre Ausdrücke oder Wörterbücher mit Werten zur Werteerkennung verwendet. Dabei wird die prozentuale Übereinstimmung zwischen den Referenzwerten und Ihren Werten berechnet, um den semantischen Typ jeder Spalte festzulegen.

    Wenn Sie den Schalter in diesem Beispiel deaktivieren würden, würde das Wörterbuch lediglich zur Datenerkennung eingesetzt werden, und kein Wert würde als ungültig eingestuft werden.

  7. Wählen Sie in der Dropdown-Liste Validation criterion (Validierungskriterium) die Einschränkungsregel aus, die angewendet werden soll, in diesem Beispiel Exact value (Genauer Wert).
    • Simplified text (Vereinfachter Text): Satzzeichen, Leerzeichen, Groß-/Kleinschreibung und Akzente werden bei der Validierung ignoriert. Beispiel: Pâté-en-croûte ist Ihr Referenzwert. In diesem Fall wird pate-eN-cRoute als gültig eingestuft, Pâté n croûte jedoch nicht.
    • Ignore case and accents (Groß-/Kleinschr. und Akzente ignorieren): Groß- und Kleinschreibung sowie Akzente werden bei der Validierung nicht berücksichtigt. Beispiel: Pâté-en-croûte ist Ihr Referenzwert. In diesem Fall wird pate-en-croute als gültig eingestuft, Pâté n croûte jedoch nicht.
    • Exact value (Genauer Wert): Die Validierungsregel mit der höchsten Einschränkung. Die Daten werden nur als gültig betrachtet, wenn eine exakte Übereinstimmung mit dem Referenzwert gegeben ist.
  8. Um die Liste der Grafschaften hinzuzufügen, die dann den semantischen Typ UK Counties (Grafschaften im Vereinigten Königreich) im Feld Values (Werte) bilden werden, stehen Ihnen folgende Möglichkeiten zur Auswahl:
    • Fügen Sie jeden Wert manuell hinzu. Klicken Sie auf das plus-Symbol, um einen Wert einzugeben, und anschließend auf das Symbol check (Prüfen), um die Änderung zu bestätigen. Wiederholen Sie diesen Vorgang für jedes Land, das der Liste hinzugefügt werden soll.
    • Importieren Sie eine Datei mit der Klartextliste der Grafschaften im Vereinigten Königreich. Klicken Sie auf die Schaltfläche import (Importieren), um die hochzuladende Datei auszuwählen. Das Dateiformat ist nicht von Bedeutung, solange der Inhalt in Klartext ist.
      InformationshinweisAnmerkung: Sie können Inhalt bis 10 MB pro Mandant in Talend Dictionary Service hochladen.

      Laden Sie folgende Datei herunter und extrahieren Sie sie: dict_uk_counties.zip.

      Beispiel für die Datei dict_uk_counties.txt

      Geben Sie jeden einzelnen Wert auf einer separaten Zeile ein. Werte auf derselben Zeile, abgesetzt durch Kommas, werden als Synonyme eingestuft.

      Beim Import einer Liste aus einer Datei müssen nicht-alphabetische Werte durch Anführungszeichen geschützt werden, andernfalls wird die Datei zurückgewiesen.

    Wertduplikate sind nicht zulässig. Beim manuellen Hinzufügen von Werten wird eine Prüfung durchgeführt. Beim Import einer Datei wird automatisch ein Schritt zur Entfernung von Duplikaten durchgeführt.

    Die komplette Liste der Grafschaften wurde hinzugefügt.

  9. Klicken Sie auf Save and publish (Speichern und veröffentlichen), um den neuen semantischen Typ an den Talend Dictionary Service-Server zu senden und ihn den Benutzern von Talend Cloud Data Inventory zur Verfügung zu stellen.

    Durch Klicken auf Save as draft (Als Entwurf speichern) wird der semantische Typ in Talend Dictionary Service gespeichert, jedoch nicht an die Talend Cloud-Anwendungen übertragen. Dadurch können Sie bestimmen, wann der semantische Typ öffentlich gemacht werden soll.

    Der Typ UK Counties (Grafschaften im Vereinigten Königreich) ist jetzt in der Liste der semantischen Typen mit dem Status Published (Veröffentlicht) verfügbar.

    Die Änderung von semantischen Typen wird für jeden von Ihnen neu erstellten Datensatz sofort in Talend Cloud Data Inventory wirksam. Für die bereits vorhandenen Datensätze müssen Sie das Sample aktualisieren, damit die Qualität mit der neuen, geeigneteren Kategorie neu berechnet wird.

  10. Kehren Sie zu Ihrem Datensatz mit den Namen der Grafschaften zurück.
  11. Klicken Sie auf die Schaltfläche Refresh (Aktualisieren).
    Position der Schaltfläche zur Aktualisierung („Refresh“) in der Datensatzübersicht

Ergebnisse

Ihren Daten wurde jetzt der von Ihnen manuell in Talend Dictionary Service erstellte semantische Typ UK Counties (Grafschaften im Vereinigten Königreich) zugeordnet.
Der neue wörterbuchbasierte semantische Typ wurde hinzugefügt.

Ab jetzt wird neuen Datensätzen mit britischen Grafschaften beim Import automatisch der zutreffende Typ zugeordnet.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!