Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Hinzufügen neuer wörterbuchbasierter semantischer Typen

Sie können in Talend Dictionary Service einen semantischen Typ auf der Grundlage eines Wörterbuchs erstellen und ihn in der Liste der erkannten Datentypen in Talend Cloud Data Stewardship hinzufügen. Allerdings sind in einem wörterbuchbasierten semantischen Typ keine Wertduplikate zulässig, da sie nutzlos sind und den Prozess verlangsamen.

In Talend Cloud Data Stewardship kann zurzeit nicht jeder Typ von Daten einem der vordefinierten semantischen Typen zugeordnet werden. Die Grafschaften im Vereinigten Königreich zum Beispiel werden momentan nicht erkannt.

Warum und wann dieser Vorgang ausgeführt wird

Ein Beispiel: Sie arbeiten für eine britische Firma und nur mit Kunden, die im Vereinigten Königreich angesiedelt sind. In diesem Beispiel müssen Sie einige Kundendaten bereinigen, z. B. die Namen und E-Mailadressen der Kunden oder die Grafschaft (County), in der sie leben. Bei der Festlegung des Datenmodells in Data Stewardship fragen sich, Sie welcher semantische Typ für die Spalte mit den Grafschaften verwendet werden sollte. Sie möchten folglich einen für diese Daten spezifischen semantischen Typ hinzufügen: den semantischen Typ UK_counties (UK-Länder) beispielsweise.

Sie können diesen neuen semantischen Typ in Talend Dictionary Service erstellen. Er wird dann automatisch in Data Stewardship zur Verfügung gestellt, sodass Ihre Daten mit einem geeigneten Typ verglichen und validiert werden können.

Prozedur

  1. Erstellen Sie eine Textdatei, in der Sie die Grafschaften im Vereinigten Königreich auflisten.
    Die Datei kann einen oder mehrere Werte pro Zeile enthalten. Maximale Länge für einen Wert: 255 Zeichen.

    Wenn Sie mehrere Werte auf derselben Zeile verwenden, setzen Sie sie mithilfe von Kommas voneinander ab. In diesem Fall werden alle Werte als Synonyme betrachtet. Sie sollten nicht-alphabetische Werte in Anführungszeichen setzen, andernfall wird die Datei zurückgewiesen.

  2. Wählen Sie Semantic types (Semantische Typen) > Add semantic type (Semantischen Typ hinzufügen) aus.
  3. Geben Sie einen Namen und eine Beschreibung für den neuen semantischen Typ ein.
  4. Wählen Sie den semantischen Typ in der Liste Type (Typ) aus.
  5. Der Schalter Use for validation (Für Validierung verwenden) muss aktiviert bleiben.

    Die Verwendung eines regulären Ausdrucks, eines Wörterbuchs oder Compound-Typs für die Validierung bedeutet, dass dadurch ermittelt wird, welche Werte in einer bestimmten Spalte als richtig oder falsch eingestuft werden. Das Ergebnis dieses Validierungsprozesses wird in der Qualitätsleiste jeder Spalte in Ihren Datensätzen angezeigt.

    In jedem Fall werden reguläre Ausdrücke oder Wörterbücher mit Werten zur Werteerkennung verwendet. Dabei wird die prozentuale Übereinstimmung zwischen den Referenzwerten und Ihren Werten berechnet, um den semantischen Typ jeder Spalte festzulegen.

    Wenn Sie den Schalter in diesem Beispiel deaktivieren würden, würde das Wörterbuch lediglich zur Datenerkennung eingesetzt werden, und kein Wert würde als ungültig eingestuft werden.

  6. Wählen Sie in der Liste Validation criterion (Validierungskriterium) die Regel aus, die für den Vergleich der Daten mit den Werten im Wörterbuch verwendet werden soll:
    Option Bezeichnung
    Simplified text (Vereinfachter Text) Satzzeichen, Leerzeichen, Groß-/Kleinschreibung und Akzente werden bei der Validierung ignoriert und die Daten als gültig eingestuft. Wenn beispielsweise Pâté-en-croûte als Referenzwert im Wörterbuch fungiert, dann wird sowohl pate-en-croute als auch PATE--EN CROUTE als gültig eingestuft, Pâté n croûte allerdings nicht.
    Ignore case and accents (Groß-/Kleinschr. und Akzente ignorieren) Groß-/Kleinschreibung und Akzente werden bei der Validierung ignoriert und die Daten als gültig eingestuft. Wenn beispielsweise Pâté-en-croûte als Referenzwert im Wörterbuch fungiert, dann wird pate-en-croute (trotz des Unterschieds in der Schreibung und bei den Akzenten) als gültig eingestuft, pate en croute allerdings nicht, da die Bindestriche durch Leerzeichen ersetzt wurden.
    Exact value (Genauer Wert) Extrem einschränkend. Die Daten werden nur als gültig betrachtet, wenn eine exakte Übereinstimmung mit dem Wert gegeben ist.
  7. Klicken Sie auf Import values from a file (Werte aus Datei importieren) rechts neben Values (Werte) und importieren Sie die Textdatei mit den Grafschaften im Vereinigten Königreich.
    Sie können auf das Symbol Add item (Element hinzufügen) klicken, um manuell Werte hinzuzufügen, oder auf das Suchsymbol, um Werte in der Liste zu suchen.
    InformationshinweisAnmerkung: Sie können Inhalt bis 10 MB pro Mandant in Talend Dictionary Service hochladen.
    Konfiguration zum Hinzufügen eines neuen wörterbuchbasierten semantischen Typs
  8. Klicken Sie auf Save and publish (Speichern und veröffentlichen), um den semantischen Typ an den Talend Dictionary Service-Server zu senden und ihn zur Verfügung zu stellen, sodass er von Data Stewardship verwendet werden kann.
    Durch einen Klick auf Save as draft (Als Entwurf speichern) wird der neue Typ auf dem Server gespeichert, ohne dass er in das System übertragen wird. Der neue Typ kann erst verwendet werden, wenn er veröffentlicht wurde. Ein Anwendungsfall für diese Option: Sie verfügen über einen neuen semantischen Typ, der als Teil eines neuen Projekts implementiert werden soll. Sie können die Arbeit vorbereiten, indem Sie vor dem Go-live des Projekts die semantischen Typen erstellen und als Entwurf speichern. Die Implementierung der semantischen Typen können Sie dann am Tag des Go-live durchführen.
  9. Erstellen Sie auf der Seite Data models (Datenmodelle) ein Datenmodell für die Daten der Kunden im Vereinigten Königreich.
    Position des Felds „Type (Typ)“
    UK_counties (Grafschaften im Vereinigten Königreich) ist jetzt in der Liste der semantischen Typen verfügbar, d. h. Sie können diesen Typ für die Spalte County (Grafschaft) einstellen.

Ergebnisse

Beim Laden der Daten mit den Grafschaften des Vereinigten Königreichs in Talend Cloud Data Stewardship werden diese mit dem zutreffenden semantischen Typ, UK_counties (Grafschaften im Vereinigten Königreich), den Sie manuell in Talend Dictionary Service erstellt haben, verglichen und validiert.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!