Erkennen ungültiger Telefonnummern mithilfe von Mustern - Cloud

Nutzungshandbuch für Talend Cloud Data Preparation

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration und Überwachung > Verwaltung von Verbindungen
Datenqualität und Datenaufbereitung > Bereinigung von Daten
Datenqualität und Datenaufbereitung > Verwaltung von Datensätzen
Last publication date
2024-04-18

Sie können die Musterregisterkarte des Profiling-Bereichs nutzen, um Probleme in Bezug auf die Datenqualität zu erfassen. Dazu werden Muster mit geringer Frequenz in den Daten identifiziert.

Dieses Beispiel illustriert einen Anwendungsfall, bei dem sich die Musteranalyse als nützlich zur Datenbereinigung erweist. Der folgende Datensatz enthält Telefonnummern von Kunden weltweit im jeweiligen Landesformat. Wie in der Qualitätsleiste ausgewiesen werden einige Telefonnummern als ungültig eingestuft. Über die Musteranalyse können Sie die Art des Fehlers in der Spalte ermitteln.

Datensatz mit Telefonnummern

Prozedur

  1. Klicken Sie auf die Überschrift der Spalte phone (Telefon), um deren Inhalt auszuwählen.
  2. Wählen Sie im Profiling-Bereich des Datensatzes die Registerkarte Pattern (Muster) aus.
    Die verschiedenen, in dieser Spalte verwendeten Muster werden in Form eines Diagramms angezeigt. Standardmäßig zeigt das Diagramm den jeweiligen Anteil der Daten mit wortbasierten Mustern an. Wenn im Daten-Profiling-Bereich mehr als 15 verschiedene Werte oder Muster angezeigt werden, können Sie die Einträge mithilfe des Paginierungssystems durchlaufen.
    Geöffneter Musterbereich

    Unter den Zahlen, die ausschließlich [number]-Muster aufweisen sollten, können Sie eine Anomalität feststellen. So wird in einer Leiste am unteren Diagrammrand tatsächlich ein Datenelement ausgewiesen, das ein Wort ([word]) enthält.

  3. Klicken Sie auf die Leiste, die dem Muster mit der geringsten Frequenz in diesem Datensatz entspricht.
    Dadurch wenden Sie einen Filter auf die entsprechende Zeile an, um den Fehler zu isolieren. In der Datenaufbereitung wird jetzt nur die Zeile mit dem Wert Jeffords(323) 254-9541 angezeigt, der dem Format [word]([number]) [number]-[number] entspricht.
    Datenaufbereitung mit der Zeile zu William Jeffords

    Wie Sie sehen, wurde ein Teil des vollständigen Namens aus der vorangehenden Spalte mit der Telefonnummer vermischt, höchstwahrscheinlich aufgrund eines menschlichen Fehlers, wie z. B. eines falschen Kopier- und Einfügevorgangs.

  4. Doppelklicken Sie auf die Zelle, um sie zu bearbeiten und den Wert zu berichtigen.
  5. Klicken Sie in der Filterleiste auf das Kreuz im Filter oder auf das Papierkorb-Symbol, um den Filter zu löschen und erneut den gesamten Datensatz anzuzeigen.

Ergebnisse

Sie haben ein Problem mit der Datenqualität identifiziert und isoliert, indem Sie den jeweiligen Anteil der Muster Ihrer Telefonnummern untersucht haben.