Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Verwenden von Zusammenführungstasks zur Deduplizierung von Datensätzen

Durch das Zusammenführen von Tasks können mehrere potenziell doppelt vorhandene Datensätze in einem einzelnen Datensatz zusammengeführt werden: dem Stammdatensatz. Die potenziellen Duplikate können aus derselben Quelle (Datendeduplizierung) oder aus unterschiedlichen Quellen (Datenbankabgleich) stammen.

In einer Merging (Zusammenführen)-Kampagne können Sie ausschließlich Werte in den Stammfeldern ändern. Änderungen an den Werten in den Quellfeldern sind nicht möglich.

Durch die Zusammenführung von Datenwerten und die Validierung der vorgenommenen Änderungen wird die Task in den zweiten im Workflow definierten Status überführt. Der bei der Kampagnenerstellung festgelegte Workflow gibt vor, welcher Status für welche Data Stewards verfügbar ist. Allerdings kann eine Task weder validiert noch als validierungsbereit gekennzeichnet werden, solange sie mindestens einen ungültigen Wert enthält.

Warum und wann dieser Vorgang ausgeführt wird

Die doppelten Kundendatensätze stammen aus derselben Quelle (CRM-System des Unternehmens). Talend Cloud Data Stewardship ermittelt zunächst die Attribute der übereinstimmenden Datensätze, die gemäß den bei der Erstellung der Kampagne definierten Survivorship-Regeln zur Erstellung des Stammdatensatzes verwenden werden sollen. Allerdings müssen Sie die Survivorship-Regeln für jedes Datensatzattribut ggf. manuell anpassen oder vollständig neue Werte eingeben, um den Stammdatensatz so genau und zuverlässig wie möglich zu machen.

Prozedur

  1. Klicken Sie auf der Seite Tasks auf den Namen der Kampagne, in diesem Beispiel CRM Data Deduplication (CRM-Datendeduplizierung), um eine Liste der Ihnen zugewiesenen Tasks zu öffnen.
    Übersicht über die Kampagne zur CRM-Datendeduplizierung („CRM Data Deduplication“)
  2. Über die Qualitätsleiste am oberen Rand jeder Spalte können Sie die Daten ausfiltern, die Sie in den Ansichten Chart (Diagramm) oder Pattern (Muster) im rechten Fensterbereich bearbeiten möchten.
  3. Klicken Sie auf den Nach-unten-Pfeil in der oberen linke Ecke, um die Anzeige auf alle Tasks in der Liste zu erweitern, bzw. auf den Nach-unten-Pfeil einer bestimmter Task, um diese zu erweitern.
  4. Legen Sie Survivorship-Regeln fest, um Attribute in den Kundendatensätzen auszuwählen und diese zur Generierung der Stammdatensätze zu verwenden. Dazu stehen verschiedene Ansätze zur Auswahl.
    • Legen Sie manuell eine Survivorship-Regel für ein Attribut mehrerer Datensätze fest:

      1. Klicken Sie auf eine Spaltenüberschrift, z. B. First_Name (Vorname), und gehen Sie im rechten Fensterbereich zum Bereich Survivorship.
      2. Klicken Sie auf Apply survivorship rule (Survivorship-Regel anwenden) und wählen Sie in der Liste Rule (Regel) den Eintrag Most common (Häufigster Wert) als die Survivorship-Regel aus, die auf das Namensattribut in allen Kundendatensätzen angewendet werden soll.

        Wenn Sie in der Kampagne Merging (Zusammenführen) die Quellen der Datenduplikate angegeben haben, werden die Namen der Quellen in die Liste aufgenommen und können als Survivorship-Regel zur Anwendung auf die Spaltenwerte ausgewählt werden.

      3. Wenn die Regel auf alle Namenswerte, d. h. einschließlich der Nullwerte, angewendet werden soll, deaktivieren Sie das Kontrollkästchen Avoid null values (Nullwerte vermeiden). Lassen Sie es andernfalls aktiviert.
      4. Klicken Sie auf Submit (Senden), um die am häufigsten vorkommenden Namenswerte auszuwählen und sie zu den Stammdatensätzen der Tasks hinzuzufügen.
    • Legen Sie manuell eine Survivorship-Regel für alle Attribute einer oder mehrerer Golden Records fest:

      1. Wählen Sie die Tasks aus, für die Sie die Regel festlegen möchten, und klicken Sie im rechten Fensterbereich unter Task auf Apply survivorship rule (Survivorship-Regel anwenden).
      2. Klicken Sie in der Liste Selection (Auswahl) auf Selected tasks (Ausgewählte Tasks).

        Wenn Sie einen Filter für die Liste definiert haben, können Sie die Regel auf alle oder nur auf die ausgefilterten Tasks anwenden.

      3. Legen Sie in der Liste Rule (Regel) fest, dass z. B. Most trusted (Vertrauenswürdigster Wert) auf die Gruppe der ausgewählten Tasks angewendet werden soll.
      4. Wenn die Regel auf alle Namenswerte, d. h. einschließlich der Nullwerte, angewendet werden soll, deaktivieren Sie das Kontrollkästchen Avoid null values (Nullwerte vermeiden). Lassen Sie es andernfalls aktiviert.
      5. Klicken Sie auf Submit (Senden), um die Namenswerte mit dem höchsten Score in den ausgewählten Golden Records hinzuzufügen.
    • Legen Sie manuell eine Survivorship-Regel für eines oder mehrere Attribute eines Datensatzes fest: Erweitern Sie die Task, positionieren Sie den Mauszeiger auf einem Attribut im Stammdatensatz einer Task und wählen Sie unter den daraufhin angezeigten Symbolen die anzuwendende Survivorship-Regel aus.
      Position der Symbole zur manuellen Festlegung einer Survivorship-Regel für eines oder mehrere Attribute
      • Use first valid attribute icon: Wählt den ersten gültigen Attributwert unter den Duplikaten aus. Der „erste Wert“ wird von der Reihenfolge der Datensätze bei der Erstellung der Task vorgegeben.

      • Use most common icon: Wählt den am häufigsten vorkommenden Attributwert unter den Duplikaten aus.

      • Use most recent icon: Wählt den am neuester vorkommenden Attributwert unter den Duplikaten aus.

      • Use most trusted icon: Wählt den vertrauenswürdigsten Attributwert unter den aus verschiedenen Quellen stammenden Duplikaten aus.

        Die Symbole werden grau abgeblendet, wenn Regeln auf das ausgewählte Attribut nicht zutreffen. In diesem Beispiel ist das Symbol für das vertrauenswürdigste Attribut nicht verfügbar, da die Kundendaten aus einer einzigen Quelle stammen: dem CRM-System.

    • Legen Sie manuell eine Survivorship-Regel für ein Attribut mehrerer Datensätze fest:

      1. Klicken Sie auf eine Spaltenüberschrift, z. B. First_Name (Vorname), und gehen Sie im rechten Fensterbereich zum Bereich Survivorship.
      2. Klicken Sie auf Apply survivorship rule... (Survivorship-Regel anwenden...) und wählen Sie in der Liste Rule (Regel) den Eintrag Most common (Häufigster Wert) als die Survivorship-Regel aus, die auf das Namensattribut in allen Kundendatensätzen angewendet werden soll.
      3. Klicken Sie auf Submit (Senden), um die am häufigsten vorkommenden Namenswerte auszuwählen und sie zu den Stammdatensätzen der Tasks hinzuzufügen.
    • Wählen Sie den Wert eines bestimmten Quellattributs aus, um ihn als Wert für den Stammdatensatz zu verwenden: Zeigen Sie auf ein Quellattribut und klicken Sie auf den Nach-oben-Pfeil, um den ausgewählten Wert im Stammdatensatz einzustellen.
  5. Sie können auch auf den E-Mail-Link in der Spalte Email (E-Mail) klicken, um ein neues Fenster zu öffnen und eine E-Mail an den Kunden zu senden, in dem Sie ihn über die Notwendigkeit einer Validierung der Informationen im Kundendatensatz in Kenntnis setzen.
    InformationshinweisAnmerkung: Die E-Mailadressen werden nur dann als Hyperlinks angezeigt, wenn Sie bei der Definition des Datenmodells für die Kampagne den semantischen Typ für die Spalte Email (E-Mail) auf MailTo URL eingestellt haben.
  6. Wiederholen Sie den obigen Schritt, um Datensätze zusammenzuführen und Stammdatensätze für alle der Ihnen zugewiesenen Tasks zu erstellen.
    Wenn eine Spalte mehrere Werte enthält, die berichtigt werden müssen, können Sie diese mithilfe der im rechten Fensterbereich aufgeführten Funktionen gemeinsam transformieren.
  7. Klicken Sie auf das Symbol Mark the task as ready for validation icon neben dem von Ihnen geänderten Datensatz, um anzugeben, dass die Task jetzt validiert werden kann.
    Wenn das Sperrsymbol einen roten Hintergrund aufweist, müssen Sie zuerst den ungültigen Wert in der Task berichtigen, bevor Sie die Task für eine Validierung kennzeichnen können.

    Der Datensatz wird durch einen grünen Hintergrund gekennzeichnet und das Sperrsymbol automatisch zum nächsten Datensatz verschoben. Sie können nach wie vor Änderungen an den zu validierenden Datensätzen vornehmen. Dadurch wird die Task jedoch in ihren Ausgangsstatus mit dunkelgrauem Hintergrund zurückgesetzt. Sie müssen dann erneut auf das Sperrsymbol klicken, um die Task wieder als validierungsbereit zu kennzeichnen.

  8. Klicken Sie auf Validate (Validieren) in der oberen rechten Ecke der Seite, um die von Ihnen an den Datensätzen vorgenommenen Änderungen zu validieren.
    Es werden Stammdatensätze erstellt und die validierten Datensätze werden aus der Liste entfernt und zum nächsten Schritt im Workflow übergeleitet, in dem sie von einem anderen Data Steward genehmigt werden müssen. In diesem Beispiel werden sie in die Liste des Data Stewards verschoben, dem die Rolle Account manager (Kontomanager) zugewiesen wurde.
  9. Data Stewards, die über die Rolle Account manager (Kontomanager) verfügen, können auf die zu validierenden Tasks zugreifen und die für die Tasks getroffene Auswahl annehmen oder zurückweisen.

Ergebnisse

Genehmigte Tasks werden in den Status „Resolved (Erledigt)“ im Workflow überführt. Zurückgewiesene Tasks kehren in den Ausgangsstatus im Workflow zurück und werden als neu gekennzeichnet.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!