Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Hinzufügen neuer regulärer ausdrucksbasierter semantischer Typen

Sie können in Talend Dictionary Service einen semantischen Typ auf der Grundlage eines regulären Ausdrucks erstellen und ihn in der Liste der erkannten Datentypen hinzufügen.

In der Anwendung kann zurzeit nicht jeder Typ von Daten einem der vordefinierten semantischen Typen zugeordnet werden. Italienische Sozialversicherungsnummern beispielsweise, auch als Codice fiscale bekannt, werden bisher nicht erkannt.

Ein Beispiel: Sie arbeiten für eine italienische Firma und haben nur mit italienischen Kunden zu tun. In diesem Beispiel haben Sie einen Datensatz mit einigen Kundendaten erstellt, beispielsweise Name, E-Mailadresse oder Sozialversicherungsnummer der Kunden. Der semantische Typ für die Spalte mit den Sozialversicherungsnummern wird standardmäßig auf text eingestellt. Das ist nicht präzise genug. Deshalb möchten Sie eine neue Kategorie erstellen, die diesem Typ von Daten eher entspricht: in diesem Fall den semantischen Typ codice fiscale.

Sie können diesen neuen semantischen Typ in Talend Dictionary Service erstellen. Er wird dann automatisch in Ihrem Datensatz zur Verfügung gestellt, sodass Ihre Daten einem geeigneten Typ zugeordnet werden können.

InformationshinweisWichtig: Aus Sicherheitsgründen können einige reguläre Ausdrücke nicht verwendet werden, insbesondere Rückreferenzen. Weitere Informationen finden Sie in der RE2/J-Dokumentation.

Prozedur

  1. Öffnen Sie über den linken Seitenbereich der Homepage die Ansicht Semantic type (Semantischer Typ).
  2. Klicken Sie auf die Schaltfläche Add semantic type (Semantischen Typ hinzufügen).
  3. Geben Sie im Feld Name codice fiscale (Steuernummer) ein.
  4. Geben Sie im Feld Description (Beschreibung) Italian social security number (Italienische Sozialversicherungsnummer) ein.
  5. Wählen Sie in der Dropdown-Liste Type (Typ) den Eintrag Regular expression (Regulärer Ausdruck) aus.
  6. Der Schalter Use for validation (Für Validierung verwenden) muss aktiviert bleiben.

    Die Verwendung eines regulären Ausdrucks, eines Wörterbuchs oder Compound-Typs für die Validierung bedeutet, dass dadurch ermittelt wird, welche Werte in einer bestimmten Spalte als richtig oder falsch eingestuft werden. Das Ergebnis dieses Validierungsprozesses wird in der Qualitätsleiste jeder Spalte in Ihren Datensätzen angezeigt.

    In jedem Fall werden reguläre Ausdrücke oder Wörterbücher mit Werten zur Werteerkennung verwendet. Dabei wird die prozentuale Übereinstimmung zwischen den Referenzwerten und Ihren Werten berechnet, um den semantischen Typ jeder Spalte festzulegen.

    Wenn Sie den Schalter in diesem Beispiel deaktivieren würden, würde der reguläre Ausdruck lediglich zur Datenerkennung eingesetzt werden, und kein Wert würde als ungültig eingestuft werden.

  7. Wählen Sie in der Dropdown-Liste Content (Inhalt) den Typ des zu validierenden Inhalts aus, in diesem Fall Any character (Beliebiges Zeichen).
    Diese Option trägt zur Optimierung der Leistung bei. Nur die Daten, die dem ausgewählten Typ entsprechen, werden validiert. Sie können festlegen, dass nur Werte des Typs Alphabetical (Alphabetisch) oder Numerical (Numerisch) mit einem regulären Ausdruck verglichen werden sollen. Da italienische Sozialversicherungsnummern jedoch beides enthalten, müssen Sie Any character (Beliebiges Zeichen) auswählen.
  8. Geben Sie im Feld für das Validierungsmuster ^[A-Z]{6}[0-9]{2}[A-Z][0-9]{2}[A-Z][0-9]{3}[A-Z]$ ein.
    Dieser reguläre Ausdruck gibt die Entsprechung mit dem italienischen Codice fiscale vor, d. h. einem alphanumerischen Code aus 16 Zeichen. Daten, die diesem Muster entsprechen, werden dann als "codice fiscale" identifziert.
  9. Klicken Sie auf Save and publish (Speichern und veröffentlichen), um den neuen semantischen Typ an den Talend Dictionary Service-Server zu senden und ihn den Benutzern von Talend Cloud Data Inventory zur Verfügung zu stellen.

    Durch Klicken auf Save as draft (Als Entwurf speichern) wird der semantische Typ in Talend Dictionary Service gespeichert, jedoch nicht an die Talend Cloud-Anwendungen übertragen. Dadurch können Sie bestimmen, wann der semantische Typ öffentlich gemacht werden soll.

    Der Typ codice fiscale ist jetzt in der Liste der semantischen Typen mit dem Status Published (Veröffentlicht) verfügbar.

    Die Änderung von semantischen Typen wird für jeden von Ihnen neu erstellten Datensatz sofort in Talend Cloud Data Inventory wirksam. Für die bereits vorhandenen Datensätze müssen Sie das Sample aktualisieren, damit die Qualität mit der neuen, geeigneteren Kategorie neu berechnet wird.

  10. Kehren Sie zu Ihrem Datensatz mit den italienischen Sozialversicherungsnummern zurück.
  11. Klicken Sie auf die Schaltfläche Refresh sample (Sample aktualisieren).
    Position der Schaltfläche zur Aktualisierung („Refresh“) in der Datensatzübersicht

Ergebnisse

Ihren Daten wurde jetzt der von Ihnen manuell in Talend Dictionary Service erstellte semantische Typ codice_fiscale zugeordnet.
Der neue ausdruckbasierte semantische Standardtyp wurde hinzugefügt.

Ab jetzt wird neuen Datensätzen mit italienischen Sozialversicherungsnummern beim Import automatisch der zutreffende Typ zugeordnet.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!