Automatisches Standardisieren der Werte in einer Spalte
Sie können die Funktion Standardize value (fuzzy matching) (Wert standardisieren (Fuzzy Matching)) verwenden, um den ähnlichsten gültigen Wert für die ungültigen Werte in einer Spalte ausfindig zu machen.
Die Funktion vergleicht die in einer Spalte enthaltenen ungültigen Werte mit dem aktuellen semantischen Typ und ruft die gültigen Werte ab, sobald der ausgewählte Übereinstimmungsgrenzwert erreicht ist. Diese Funktion ist nur verfügbar, wenn der semantische Typ auf einem Wertewörterbuch oder einem standardmäßig in Talend Data Preparation vorhandenen oder von Ihnen mit Talend Dictionary Service erstellten zusammengesetzten Typ (Compound) basiert. Weitere Informationen zur Erstellung benutzerdefinierter semantischer Typen oder zur Bearbeitung vorhandener Typen finden Sie unter Anreichern der Bibliotheken mit semantischen Typen.
Ein Beispiel: Sie arbeiten an einem Datensatz mit verschiedenen Informationen über in den USA angesiedelte Kunden, u. a. deren Namen, E-Mail-Adresse und US-Bundesstaat, in dem sie wohnhaft sind.
Wie Sie in der Überschrift der Spalte State (Bundesstaat) feststellen können, wurden die Daten als US-Bundesstaaten erkannt. Allerdings ist der Qualitätsleiste zu entnehmen, dass einige der Einträge ungültige Namen enthalten.
Sie werden die ungültigen Werte in einem einzelnen Vorgang berichtigen und durch gültige Werte aus dem Wörterbuch US State (US-Bundesstaat) oder semantischen Typ ersetzen, das bzw. der eine vollständige Liste aller US-Bundesstaaten enthält.
Prozedur
Ergebnisse
Die ungültigen Werte wurden mithilfe des Wörterbuchs der US-Bundesstaaten standardisiert.
Hat diese Seite Ihnen geholfen?
Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!