Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Hinzufügen neuer regulärer ausdrucksbasierter semantischer Typen

Sie können in Talend Dictionary Service einen semantischen Typ auf der Grundlage eines regulären Ausdrucks erstellen und ihn in der Liste der erkannten Datentypen in Talend Data Preparation hinzufügen.

In Talend Data Preparation kann zurzeit nicht jeder Typ von Daten einem der vordefinierten semantischen Typen zugeordnet werden. Italienische Sozialversicherungsnummern beispielsweise, auch als Codice fiscale bekannt, werden bisher nicht erkannt.

Ein Beispiel: Sie arbeiten für eine italienische Firma und haben nur mit italienischen Kunden zu tun. In diesem Beispiel müssen Sie einige Kundendaten bereinigen, z. B. die Namen, E-Mailadressen oder Sozialversicherungsnummern der Kunden. Der semantische Typ für die Spalte mit den Sozialversicherungsnummern wird standardmäßig auf text eingestellt. Das ist nicht präzise genug und Sie möchten eine neue Kategorie erstellen, die diesem Typ von Daten eher entspricht: in diesem Fall den semantischen Typ codice fiscale.

Menü der Spalte „Codice Fiscale“, geöffnet mit hervorgehobener Option „Column is a text“ (Spalte ist Text)

Sie erstellen diesen neuen semantischen Typ in Talend Dictionary Service. Er wird dann automatisch in Talend Data Preparation zur Verfügung gestellt, sodass Ihre Daten einem geeigneten Typ zugeordnet werden können.

InformationshinweisWichtig: Aus Sicherheitsgründen können einige reguläre Ausdrücke nicht verwendet werden, insbesondere Rückreferenzen. Weitere Informationen finden Sie in der RE2/J-Dokumentation.

Prozedur

  1. Öffnen Sie die Ansicht Semantic types (Semantische Typen) über den linken Fensterbereich der Homepage von Talend Data Preparation und klicken Sie auf Add semantic type (Semantischen Typ hinzufügen).
  2. Geben Sie im Feld Name codice fiscale ein.
  3. Geben Sie im Feld Description (Beschreibung) Italian social security number (Italienische Sozialversicherungsnummer) ein.
  4. Wählen Sie in der Dropdown-Liste Type (Typ) den Eintrag Regular expression (Regulärer Ausdruck) aus.
  5. Der Schalter Use for validation (Für Validierung verwenden) muss aktiviert bleiben.

    Die Verwendung eines regulären Ausdrucks, eines Wörterbuchs oder Compound-Typs für die Validierung bedeutet, dass dadurch ermittelt wird, welche Werte in einer bestimmten Spalte als richtig oder falsch eingestuft werden. Das Ergebnis dieses Validierungsprozesses wird in der Qualitätsleiste jeder Spalte in Ihren Datensätzen angezeigt.

    In jedem Fall werden reguläre Ausdrücke oder Wörterbücher mit Werten zur Werteerkennung verwendet. Dabei wird die prozentuale Übereinstimmung zwischen den Referenzwerten und Ihren Werten berechnet, um den semantischen Typ jeder Spalte festzulegen.

    Wenn Sie den Schalter in diesem Beispiel deaktivieren würden, würde der reguläre Ausdruck lediglich zur Datenerkennung eingesetzt werden, und kein Wert würde als ungültig eingestuft werden.

  6. Wählen Sie in der Dropdown-Liste Content (Inhalt) den Typ des zu validierenden Inhalts aus, in diesem Fall Any character (Beliebiges Zeichen).

    Diese Option trägt zur Optimierung der Leistung bei. Nur die Daten, die dem ausgewählten Typ entsprechen, werden validiert. Sie können festlegen, dass nur Werte des Typs Alphabetical (Alphabetisch) oder Numerical (Numerisch) mit einem regulären Ausdruck verglichen werden sollen, da italienische Sozialversicherungsnummern jedoch beides enthalten, müssen Sie Any character (Beliebiges Zeichen) auswählen.

  7. Geben Sie im Feld Validation pattern (Validierungsmuster) Folgendes ein: ^[A-Z]{6}[0-9]{2}[A-Z][0-9]{2}[A-Z][0-9]{3}[A-Z]$.

    Dieser reguläre Ausdruck gibt die Entsprechung mit dem italienischen Codice fiscale vor, d. h. einem alphanumerischen Code aus 16 Zeichen. Daten, die diesem Muster in Talend Data Preparation entsprechen, werden dann als „codice fiscale“ identifziert.

  8. Klicken Sie auf Save and publish (Speichern und veröffentlichen), um den neuen semantischen Typ an den Talend Dictionary Service-Server zu senden und ihn den Benutzern von Talend Data Preparation zur Verfügung zu stellen.

    Durch Klicken auf Save as draft (Als Entwurf speichern) wird der semantische Typ in Talend Dictionary Service gespeichert, jedoch nicht an die Talend-Webanwendungen übertragen. Dadurch können Sie bestimmen, wann der semantische Typ öffentlich gemacht werden soll.

    Der Typ codice fiscale ist jetzt in der Liste der semantischen Typen mit dem Status Published (Veröffentlicht) verfügbar.

    Typ „Codice Fiscale“ veröffentlicht („Published“)

    Die Änderung von semantischen Typen wird für jeden neuen, von Ihnen importierten Datensatz direkt in Talend Data Preparation wirksam. Für bereits bestehende Datensätze müssen Sie den Spaltentyp manuell ändern bzw. den Datensatz neu importieren.

  9. Kehren Sie zu Ihrem Datensatz mit den italienischen Sozialversicherungsnummern zurück.
  10. Klicken Sie auf das Menüsymbol in der Spaltenüberschrift codice_fiscale und wählen Sie this columns is a... (Diese Spalte weist folgenden Typ auf:) > codice fiscale aus.

    Der Spaltentyp entspricht jetzt der neu erstellten Kategorie.

    Typ „Codice Fiscale“ hervorgehoben mit 100 %

Ergebnisse

Ihren Daten wurde jetzt der von Ihnen manuell in Talend Dictionary Service erstellte semantische Typ codice_fiscale zugeordnet. Ab jetzt wird neuen Datensätzen mit italienischen Sozialversicherungsnummern beim Import automatisch der zutreffende Typ zugeordnet.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!