Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Hinzufügen neuer regulärer ausdrucksbasierter semantischer Typen

Sie können in Talend Dictionary Service einen semantischen Typ auf der Grundlage eines regulären Ausdrucks erstellen und ihn in der Liste der erkannten Datentypen in Data Stewardship hinzufügen.

In Talend Dictionary Service kann zurzeit nicht jeder Typ von Daten mit einem der vordefinierten semantischen Typen verglichen und validiert werden. Italienische Sozialversicherungsnummern beispielsweise, auch als Codice fiscale bekannt, werden bisher nicht erkannt.

Warum und wann dieser Vorgang ausgeführt wird

Ein Beispiel: Sie arbeiten für eine italienische Firma und haben nur mit italienischen Kunden zu tun. In diesem Beispiel müssen Sie einige Kundendaten bearbeiten bzw. verwalten, z. B. die Namen, E-Mailadressen oder Sozialversicherungsnummern der Kunden. Bei der Definition des Datenmodells in Data Stewardship müssen Sie den semantischen Typ für die Spalte mit der Sozialversicherungsnummer auf text einstellen, da für italienische Sozialversicherungsnummern keine vordefinierten semantischen Typen existieren. Das ist etwas enttäuschend und Sie möchten eine spezifischere Kategorie erstellen, die diesem Typ von Daten eher entspricht: in diesem Fall den semantischen Typ codice_fiscale.

Sie können diesen neuen semantischen Typ in Talend Dictionary Service erstellen. Er wird dann automatisch in Data Stewardship zur Verfügung gestellt, sodass Ihre Daten mit einem geeigneten Typ verglichen und validiert werden können.

InformationshinweisWichtig: Aus Sicherheitsgründen können einige reguläre Ausdrücke nicht verwendet werden, insbesondere Rückreferenzen. Weitere Informationen finden Sie in der RE2/J-Dokumentation.

Prozedur

  1. Wählen Sie Semantic types (Semantische Typen) > Add semantic type (Semantischen Typ hinzufügen) aus.
  2. Geben Sie einen Namen und eine Beschreibung für den neuen semantischen Typ ein.
  3. Wählen Sie den semantischen Typ in der Liste Type (Typ) aus.
  4. Der Schalter Use for validation (Für Validierung verwenden) muss aktiviert bleiben.

    Die Verwendung eines regulären Ausdrucks, eines Wörterbuchs oder Compound-Typs für die Validierung bedeutet, dass dadurch ermittelt wird, welche Werte in einer bestimmten Spalte als richtig oder falsch eingestuft werden. Das Ergebnis dieses Validierungsprozesses wird in der Qualitätsleiste jeder Spalte in Ihren Datensätzen angezeigt.

    In jedem Fall werden reguläre Ausdrücke oder Wörterbücher mit Werten zur Werteerkennung verwendet. Dabei wird die prozentuale Übereinstimmung zwischen den Referenzwerten und Ihren Werten berechnet, um den semantischen Typ jeder Spalte festzulegen.

    Wenn Sie den Schalter in diesem Beispiel deaktivieren würden, würde der reguläre Ausdruck lediglich zur Datenerkennung eingesetzt werden, und kein Wert würde als ungültig eingestuft werden.

  5. Wählen Sie in der Liste Content (Inhalt) den Typ des Inhalts aus, den Sie validieren möchten.
    Diese Option trägt zur Optimierung der Leistung bei. Nur die Daten, die dem ausgewählten Typ entsprechen, werden validiert.
    Option Bezeichnung
    Beliebiges Zeichen Die vollständige Zeichenfolge wird zur Validierung mit dem regulären Ausdruck verglichen.
    Alphabetisch Die Zeichenfolgen, die alphabetische und nicht-numerische Zeichen enthalten, werden zur Validierung mit dem regulären Ausdruck verglichen.
    Numerisch Die Zeichenfolgen, die numerische und nicht-alphabetische Zeichen enthalten, werden zur Validierung mit dem regulären Ausdruck verglichen.
  6. Geben Sie die Syntax des regulären Ausdrucks in das Feld Validation pattern (Validierungsmuster) ein.
    Dieser reguläre Ausdruck gibt die Entsprechung mit dem italienischen Codice fiscale vor, d. h. einem alphanumerischen Code aus 16 Zeichen.
    Konfiguration zum Hinzufügen eines neuen ausdrucksbasierten semantischen Standardtyps
  7. Klicken Sie auf Save and publish (Speichern und veröffentlichen), um den semantischen Typ an den Talend Dictionary Service-Server zu senden und ihn zur Verfügung zu stellen, sodass er von Data Stewardship verwendet werden kann.
    Durch einen Klick auf Save as draft (Als Entwurf speichern) wird der neue Typ auf dem Server gespeichert, ohne dass er in das System übertragen wird. Der neue Typ kann erst verwendet werden, wenn er veröffentlicht wurde. Ein Anwendungsfall für diese Option: Sie verfügen über einen neuen semantischen Typ, der als Teil eines neuen Projekts implementiert werden soll. Sie können die Arbeit vorbereiten, indem Sie vor dem Go-live des Projekts die semantischen Typen erstellen und als Entwurf speichern. Die Implementierung der semantischen Typen können Sie dann am Tag des Go-live durchführen.
  8. Kehren Sie zu Talend Cloud Data Stewardship zurück und erstellen Sie das Datenmodelle für die Daten der italienischen Kunden.
    Die neue semantische Kategorie codice_fiscale ist jetzt in der Liste der semantischen Typen verfügbar. Sie können Sie für die Spalte mit den Sozialversicherungsnummern einstellen.

Ergebnisse

Wenn Sie die Kundendaten in Talend Cloud Data Stewardship laden, werden sie jetzt mit dem von Ihnen in Talend Dictionary Service erstellten semantischen Typ codice_fiscale verglichen und validiert.
Daten, die mit dem semantischen Typ für italienische Sozialversicherungsnummern „codice fiscale“ übereinstimmen.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!