Extrahieren von Feldteilen auf der Grundlage semantischer Typen - Cloud

Nutzungshandbuch für Talend Cloud Data Preparation

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration und Überwachung > Verwaltung von Verbindungen
Datenqualität und Datenaufbereitung > Bereinigung von Daten
Datenqualität und Datenaufbereitung > Verwaltung von Datensätzen
Last publication date
2024-04-18
Mithilfe der Funktion Extract values by semantic type (Werte nach semantischem Typ extrahieren) können Sie die verschiedenen Informationen in einer Zelle gemäß den vor- oder benutzerdefinierten semantischen Typen in neue Spalten extrahieren.

Warum und wann dieser Vorgang ausgeführt wird

Die Funktion ermöglicht Ihnen die Auswahl von bis zu fünf verschiedenen semantischen Typen, die dem Typ der Informationen entsprechen, die aus einem bestimmten Feld extrahiert werden sollen. Das gilt für semantische Typen, die auf regulären Ausdrücken oder Wörterbüchern basieren, sowie für zusammengesetzte semantische Typen (Compound).

In diesem Beispiel arbeiten Sie für das Kultusministerium und müssen Daten auf der Grundlage einer Umfrage unter Museumsbesuchern aufbereiten. Im Rahmen dieser Umfrage wurden einige grundlegende demografische Informationen zu den Besuchern erfasst, z. B. deren Alter oder Geschlecht, aber auch Kommentare, die die Besucher in ein spezifisches Feld eingeben konnten. In diesem Kommentarfeld konnten die Besucher ihre Erfahrungen teilen, weitere Kontaktinformationen angeben und sogar andere Museen in den von ihnen besuchten Ländern empfehlen. Diese Angaben könnten beispielsweise für neue Partnerschaften genutzt werden.

Nach einem einfachen Parsing-Vorgang jedoch wurden die im Kommentarfeld erfassten verschiedenartigen Informationen im resultierenden Datensatz in ein einzelnes Feld aufgenommen. Sie aber möchten die verschiedenen Informationstypen extrahieren und in spezifische Spalten sortieren. Dazu ziehen Sie die Funktion Extract values by semantic type (Werte nach semantischem Typ extrahieren) sowie die mit Talend Cloud Data Preparation verfügbaren vor- bzw. benutzerdefinierten semantischen Typen heran, um die verschiedenen, in den Kommentaren hinterlassenen Informationskategorien zu identifizieren und sie in separate Spalten zu extrahieren.

Datensatz mit Kommentaren

Prozedur

  1. Klicken Sie auf die Überschrift der Spalte Comments (Kommentare), um deren Inhalt auszuwählen.
  2. Geben Sie im Funktionsbereich Extract values by semantic type (Werte nach semantischem Typ extrahieren) ein und klicken Sie dann auf das Ergebnis, um die Optionen für die zugeordnete Funktion zu öffnen.
    Geöffneter Fensterbereich zur Extraktion von Werten nach semantischem Typ („Extract values by semantic type“)
  3. Wählen Sie in der ersten Dropdown-Liste Semantic type (Semantischer Typ) den Eintrag Museum aus.
    Alle in der Dropdown-Liste verfügbaren semantischen Typen entsprechen entweder den vordefinierten oder den von Ihnen mithilfe von Talend Dictionary Service erstellten benutzerspezifischen Typen. Jede Kategorie wird in eine neue Spalte extrahiert.
  4. Wählen Sie in der zweiten und dritten Dropdown-Liste Semantic type (Semantischer Typ) jeweils den Eintrag Country (Land) und Email (EMail) aus.
    Diese drei Kategorien entsprechen dem Typ der Informationen, die die Museumsbesucher Ihrer Meinung nach im Kommentarfeld eingegeben haben.
  5. Aktivieren Sie das Kontrollkästchen Normalize value (Wert normalisieren), um einen Standardisierungsprozess auf die extrahierten Werte auf der Grundlage der standardmäßigen bzw. benutzerdefinierten wörterbuchbasierten und zusammengesetzten semantischen Typen anzuwenden.
  6. Klicken Sie auf Submit (Senden).

Ergebnisse

Alle relevanten Informationen, die den ausgewählten semantischen Typen entsprechen und in einem einzelnen Feld enthalten waren, werden extrahiert und separat in neuen Spalten angezeigt. Wenn im Originalfeld keine relevanten Informationen vorhanden waren, werden die resultierenden Zellen in den neuen Spalten leer gelassen.
Datensatz mit Kommentaren, die in separaten neuen Spalten angezeigt werden.
Tipp: Diese Transformation kann auch mithilfe der Funktion Magic fill durchgeführt werden.