Festlegen von Regeln und Werten für Stammdatensätze - Cloud

Einführungshandbuch für Talend Cloud Data Stewardship

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Data Stewardship
Content
Data Governance > Datenmodellverwaltung
Data Governance > Kampagnenverwaltung
Datenqualität und Datenaufbereitung > Deduplizierung von Daten
Datenqualität und Datenaufbereitung > Handhabung von Tasks
Last publication date
2024-03-11
Wenn Duplikate von Kundendatensätzen aus verschiedenen Quellen stammen, ermittelt Talend Cloud Data Stewardship zunächst die Attribute der übereinstimmenden Datensätze, die gemäß den in der Kampagne definierten Survivorship-Regeln zur Erstellung der Stammdatensätze verwenden werden sollen.

Warum und wann dieser Vorgang ausgeführt wird

Data Stewards überprüfen ihre Tasks und nehmen manuell Änderungen an den Survivorship-Regeln für jedes Datensatzattribut vor, oder sie geben vollständig neue Werte ein, um die Stammdatensätze so genau und zuverlässig wie möglich zu machen.

Prozedur

  1. Melden Sie sich als Data Steward an.
  2. Klicken Sie auf der Seite Tasks auf eine Kampagne, in diesem Beispiel Reconciling client data (Kundendaten abstimmen), um eine Liste der Ihnen zugewiesenen Tasks zu öffnen.
    Anhand der Farben in der Qualitätsleiste am oberen Rand der Liste erhalten Sie einen guten Überblick über die Qualität der Daten in jeder der Spalten. Wenn Sie den Cursor auf eine Farbe setzen, erhalten Sie Details zu den Datenwerten in der jeweils ausgewählten Spalte.
    Liste der Tasks, die dem Benutzer in der Kampagne Reconciling client data (Kundendaten abstimmen) zugewiesen sind.
  3. Klicken Sie auf eine Farbe in der Qualitätsleiste, um die Daten zu filtern, die Sie bearbeiten möchten, und die Tasks aufzulisten, die der Farbe entsprechen:
    • Grün: Kennzeichnet gültige Daten, die mit dem Spaltentyp übereinstimmen.
    • Grau: Kennzeichnet leere Felder. Bei einem Pflichtfeld wird ein leerer Wert jedoch rot, nicht weiß gekennzeichnet.
    • Rot: Kennzeichnet ungültige Daten, die nicht dem Spaltentyp oder dem Parametersatz im Datenmodell entsprechen.
  4. Klicken Sie auf den Nach-unten-Pfeil in der oberen linke Ecke der Taskliste, um alle Tasks zu erweitern, bzw. auf den Nach-unten-Pfeil einer bestimmter Task, um diese zu erweitern.
  5. Legen Sie Survivorship-Regeln fest, um Attribute in den Kundendatensätzen auszuwählen und diese zur Generierung der Stammdatensätze zu verwenden. Dazu sind verschiedene Möglichkeiten gegeben:
    • Legen Sie manuell eine Survivorship-Regel für ein Attribut mehrerer Datensätze fest:

      1. Klicken Sie auf eine Spaltenüberschrift, z. B. Last_Name (Nachname), und gehen Sie im rechten Fensterbereich zum Bereich Survivorship.
      2. Erweitern Sie die Liste Survivorship rule (Survivorship-Regel) und wählen Sie Most common (Häufigster Wert) als die Survivorship-Regel aus, die auf das Namensattribut in allen Tasks in der Liste angewendet werden soll.
      3. Wenn die Regel auf alle Namenswerte, d. h. einschließlich der Nullwerte, angewendet werden soll, deaktivieren Sie das Kontrollkästchen Avoid null values (Nullwerte vermeiden). Lassen Sie es andernfalls aktiviert.
      4. Klicken Sie auf Submit (Senden), um die häufigsten Namenswerte auszuwählen und sie zu den Stammdatensätzen aller Tasks hinzuzufügen.
    • Legen Sie manuell eine Survivorship-Regel für alle Attribute einer oder mehrerer Golden Records fest:

      1. Wählen Sie die Tasks aus, für die Sie die Regel festlegen möchten, und klicken Sie im rechten Fensterbereich unter Task auf Apply survivorship rule (Survivorship-Regel anwenden).
      2. Klicken Sie in der Liste Selection (Auswahl) auf Selected tasks (Ausgewählte Tasks).

        Wenn Sie einen Filter für die Liste definiert haben, können Sie die Regel auf alle oder nur auf die ausgefilterten Tasks anwenden.

      3. Legen Sie in der Liste Rule (Regel) fest, dass z. B. Most trusted (Vertrauenswürdigster Wert) auf die Gruppe der ausgewählten Tasks angewendet werden soll.

        Wenn Sie in der Kampagne Merging (Zusammenführen) die Quellen der Datenduplikate angegeben haben, werden die Namen der Quellen in die Liste aufgenommen und können als Survivorship-Regel zur Anwendung auf die Spaltenwerte ausgewählt werden.

      4. Wenn die Regel auf alle Namenswerte, d. h. einschließlich der Nullwerte, angewendet werden soll, deaktivieren Sie das Kontrollkästchen Avoid null values (Nullwerte vermeiden). Lassen Sie es andernfalls aktiviert.
      5. Klicken Sie auf Submit (Senden), um die Namenswerte mit dem höchsten Score in den ausgewählten Golden Records hinzuzufügen.
    • Legen Sie manuell eine Survivorship-Regel für eines oder mehrere Attribute eines Datensatzes fest: Zeigen Sie auf ein Attribut im Stammdatensatz einer Task und wählen Sie unter den daraufhin angezeigten Symbolen die anzuwendende Survivorship-Regel aus.

      • Symbol „Select first valid attribute (Erstes gültiges Attribut auswählen)“: Wählt den ersten gültigen Attributwert unter den Duplikaten aus. Der „erste Wert“ wird von der Reihenfolge der Datensätze bei der Erstellung der Task vorgegeben.
      • Symbol „Select most common (Häufigsten auswählen)“: Wählt den häufigsten Attributwert unter den Duplikaten aus.
      • Symbol „Select most recent (Neuesten auswählen)“: Wählt den neuesten Attributwert unter den Duplikaten aus.
      • Symbol „Select most trusted (Vertrauenswürdigsten auswählen)“: Wählt den vertrauenswürdigsten Attributwert unter den Duplikaten aus.

        Die Survivorship-Symbole werden grau abgeblendet, wenn die entsprechenden Survivorship-Regeln nicht auf den ausgewählten Datensatz angewendet werden können.

    • Wählen Sie den Wert eines bestimmten Quellattributs aus, um ihn als Wert für den Stammdatensatz zu verwenden: Zeigen Sie auf ein Quellattribut und klicken Sie auf den Nach-oben-Pfeil, um den ausgewählten Wert im Stammdatensatz einzustellen.
  6. Sie können auch auf den Wert im Stammdatensatz doppelklicken und einen Wert Ihrer Wahl festlegen, der in keiner der Quellen enthalten ist.
  7. Klicken Sie auf das Symbol Lock (Sperren) neben dem von Ihnen geänderten Datensatz, um anzugeben, dass die Task jetzt validiert werden kann.
    Das erste Feld wird durch einen grünen Hintergrund gekennzeichnet und der Prozentsatz der abgeschlossenen Tasks wird berechnet und in der oberen rechten Ecke angezeigt.

    Sie können nach wie vor Änderungen an den zu validierenden Datensätzen vornehmen. Dadurch wird die Task jedoch in ihren ursprünglichen Status mit dunkelgrauem Hintergrund zurückgesetzt. Sie müssen dann erneut auf das Sperrsymbol klicken, um die Tasks wieder als validierungsbereit zu kennzeichnen.

  8. Wenn das Sperrsymbol einen roten Hintergrund aufweist, berichtigen Sie den ungültigen Wert in der Task, damit Sie diese als bereit zur Validierung kennzeichnen können.
  9. Wiederholen Sie den obigen Schritt, um Stammdatensätze für alle der Ihnen zugewiesenen Tasks zu erstellen.
  10. Klicken Sie auf Validate (Validieren) in der oberen rechten Ecke, um die Änderungen zu genehmigen und die Task aus Ihrer Liste zu entfernen.

Ergebnisse

Die Stammdatensätze werden erstellt und die validierten Datensätze in die Liste des Kampagnenteilnehmers verschoben, dem (in diesem Beispiel) die Rolle Account validator (Kontovalidierer) zugewiesen wurde.