Deduplizieren von Werten in Spalten - Cloud

Nutzungshandbuch für Talend Cloud Data Preparation

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration und Überwachung > Verwaltung von Verbindungen
Datenqualität und Datenaufbereitung > Bereinigung von Daten
Datenqualität und Datenaufbereitung > Verwaltung von Datensätzen
Last publication date
2024-04-18

Sie können die Funktion Deduplicate rows with identical values (Zeilen mit identischen Werten deduplizieren) nutzen, um problemlos alle Zeilen zu löschen, die teilweise oder vollständig mit anderen Zeilen übereinstimmen.

Anmerkung: Diese Funktion ist nicht mit Spark-Jobs und HDFS- oder S3-Exporten kompatibel.

Doppelte Informationen können in Kalkulationstabellen aufgrund eines menschlichen Fehlers, z. B. durch falsches Kopieren und Einfügen, oder automatisierter Vorgänge entstehen. Im folgenden Datensatz mit grundlegenden Kundendaten können Sie feststellen, dass die Spalten firstname (Vorname) und lastname (Nachname) Werte enthalten, die mehr als einmal vorkommen.

Datensatz mit doppelten Kundendaten

Jake und Peralta sind tatsächlich Einträge, die aussehen, als würden die Spalten firstname (Vorname) und lastname (Nachname) Duplikate enthalten, wenn man sie separat betrachtet. Bei näherer Betrachtung jedoch zeigt sich, dass die Informationen auf den Zeilen 1, 2 und 4 zu separaten Kunden gehören, die entweder denselben Vor- oder denselben Nachnamen haben. Zeile 3 hingegen ist ein wirkliches Duplikat von Zeile 2, außerdem fehlen einige Informationen.

Das Sie bei einer für die zwei Spalten separat durchgeführten Deduplizierung wertvolle Informationen über Kunden verlieren würden, die zufällig denselben Vor- oder Nachnamen haben, wenden Sie die Funktion Deduplicate rows with identical values (Zeilen mit identischen Werten deduplizieren) auf beide Spalten gleichzeitig an. Auf diese Weise entfernt die Funktion nur Zeilen, in denen sowohl der Vor- als auch der Nachname Duplikate sind, wie in den Zeilen 2 und 3, aber auch andere potenzielle Duplikate weiter unten im Datensatz.

Prozedur

  1. Klicken Sie bei gedrückt gehaltener Strg -Taste auf die Überschriften der Spalten firstname (Vorname) und lastname (Nachname), um deren Inhalt auszuwählen.
  2. Geben Sie im Funktionsbereich Deduplicate rows with identical values (Zeilen mit identischen Werten deduplizieren) ein und klicken Sie auf das Ergebnis, um die Optionen der entsprechenden Funktion anzuzeigen.
  3. Wählen Sie in der Dropdown-Liste Matching criterion (Übereinstimmungskriterium) die Einschränkungsregel aus, die angewendet werden soll, z. B. Exact value (Genauer Wert).
    • Simplified text (Vereinfachter Text): Satzzeichen, Leerzeichen, Groß-/Kleinschreibung und Akzente werden ignoriert. Beispiel: Pâté-en-croûte ist Ihr Referenzwert. In diesem Fall wird pate-eN-cRoute gelöscht, Zeilen mit Pâté n croûte jedoch nicht.
    • Ignore case and accents (Groß-/Kleinschr. und Akzente ignorieren): Groß- und Kleinschreibung sowie Akzente werden bei nicht berücksichtigt. Beispiel: Pâté-en-croûte ist Ihr Referenzwert. In diesem Fall wird pate-en-croute gelöscht, Zeilen mit pate en croute jedoch nicht.
    • Exact value (Genauer Wert): Die Validierungsregel mit der höchsten Einschränkung. Zeilen werden nur gelöscht, wenn eine genaue Übereinstimmung mit dem Referenzwert vorliegt.
  4. Klicken Sie auf Submit (Senden).

Ergebnisse

Die Zeile, die ein Duplikat der Zeile 2 ist, wird gelöscht, während andere Zeilen mit identischen Werte beibehalten werden, da sie nicht den 2-Spalten-Kriterien entsprechen.
Datensatz der Kundendaten ohne Duplikate