Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Automatisches Standardisieren der Werte in einer Spalte

Sie können die Funktion Standardize value (fuzzy matching) (Wert standardisieren (Fuzzy Matching)) verwenden, um den ähnlichsten gültigen Wert für die ungültigen Werte in einer Spalte ausfindig zu machen.

Die Funktion vergleicht die in einer Spalte enthaltenen ungültigen Werte mit dem aktuellen semantischen Typ und ruft die gültigen Werte ab, sobald der ausgewählte Übereinstimmungsgrenzwert erreicht ist. Diese Funktion ist nur verfügbar, wenn der semantische Typ auf einem Wertewörterbuch oder einem standardmäßig in Talend Data Preparation vorhandenen oder von Ihnen mit Talend Dictionary Service erstellten zusammengesetzten Typ (Compound) basiert. Weitere Informationen zur Erstellung benutzerdefinierter semantischer Typen oder zur Bearbeitung vorhandener Typen finden Sie unter Anreichern der Bibliotheken mit semantischen Typen.

Ein Beispiel: Sie arbeiten an einem Datensatz mit verschiedenen Informationen über in den USA angesiedelte Kunden, u. a. deren Namen, E-Mail-Adresse und US-Bundesstaat, in dem sie wohnhaft sind.

Wie Sie in der Überschrift der Spalte State (Bundesstaat) feststellen können, wurden die Daten als US-Bundesstaaten erkannt. Allerdings ist der Qualitätsleiste zu entnehmen, dass einige der Einträge ungültige Namen enthalten.

Spalte „State“ hervorgehoben mit ungültigen Namen

Sie werden die ungültigen Werte in einem einzelnen Vorgang berichtigen und durch gültige Werte aus dem Wörterbuch US State (US-Bundesstaat) oder semantischen Typ ersetzen, das bzw. der eine vollständige Liste aller US-Bundesstaaten enthält.

InformationshinweisAnmerkung: Die Funktion Standardize value (fuzzy matching) (Wert standardisieren (Fuzzy Matching)) unterstützt keine asiatischen Zeichen.

Prozedur

  1. Klicken Sie auf die Überschrift der Spalte State (Bundesstaat), um deren Inhalt auszuwählen.
  2. Geben Sie im Funktionsbereich Standardize values (Werte standardisieren) ein und klicken Sie dann auf das Ergebnis, um die Optionen für die zugeordnete Funktion zu öffnen.
  3. Wählen Sie in der Dropdown-Liste Match threshold (Übereinstimmungsgrenze) den Übereinstimmungsprozentsatz aus, der zwischen dem ungültigen und dem gültigen Wert erreicht werden muss, damit ein Austausch durchgeführt wird.

    Folgende drei Prozentsätze sind verfügbar:

    • High (Hoch): Nur Werte mit einer Übereinstimmung von mindestens 90 % mit dem gültigen Wert werden ersetzt.
    • Default (Standard): Nur Werte mit einer Übereinstimmung von mindestens 80 % mit dem gültigen Wert werden ersetzt.
    • None (Keine): Der ungültige Wert wird durch den ähnlichsten gültigen Wert ersetzt.

    Für die Abgleichung der Daten wird der Levenshtein-Algorithmus verwendet. Bei einer zusammengesetzten Zeichenfolge wird der Abgleichungsprozess in vier Phasen untergliedert:

    1. Es wird eine Suche auf der Grundlage der vollständigen Zeichenfolge und jedem Token durchgeführt.
    2. Es werden Wörterbuchwerte zurückgegeben, die sich mit weniger als 3 Zeichen von der vollständigen Zeichenfolge oder einem Token unterscheiden.
    3. Die Abweichung der möglichen Paare wird verarbeitet und das beste Paar wird zurückgegeben.
    4. Der Benutzergrenzwert filtert die Ergebnisse nach der Abweichung.

    Example

    • Clermont Talend stimmt dank dem ersten Token mit Clermont überein.
    • Clermont-Ferra stimmt mit Clermont-Ferrand überein, da sich weniger als drei Zeichen von der vollständigen Zeichenfolge unterscheiden.
    • Clermon-Ferant stimmt mit Clermont überein, da sich mehr als drei Zeichen von der vollständigen Zeichenfolge unterscheiden, allerdings nur ein Zeichen vom Token Clermont abweicht.
  4. Klicken Sie auf die Schaltfläche Preview (Vorschau), um eine Vorschau des Ergebnisses der Funktion anzuzeigen. Klicken Sie anschließend auf Submit (Senden), um die Funktion anzuwenden.
    Spalte „State“ hervorgehoben mit korrekten Namen

Ergebnisse

Die ungültigen Werte wurden mithilfe des Wörterbuchs der US-Bundesstaaten standardisiert.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!