Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Hashen von Feldern für sicheren Datenvergleich

Eine Pipeline mit einer S3-Quelle, einem Prozessor vom Typ „Data masking (Datenmaskierung)“, einem Prozessor vom Typ „Field selector (Feldauswahl)“ und einem S3-Ziel.

Vorbereitungen

  • Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.

    In diesem Beispiel eine Verbindung zu Amazon S3.

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    Laden Sie folgende Datei herunter: string-crops.csv. Sie enthält einen Datensatz mit Daten zu Ernten in Mali mit Erntetyp, Produktionswert, abgeernteten Gebieten usw.

  • Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.

    In diesem Beispiel ein im gleichen S3-Bucket gespeicherter Datensatz.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Hash fields to compare data safely (Felder für sicheren Datenvergleich hashen)
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten, in diesem Fall Daten zur Getreideernte in Mali im Jahr 2005, auswählen können.

    Example

  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  5. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Data hashing (Datenhashing) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  6. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    hash fields (Felder hashen)
  7. Führen Sie im Bereich Configuration (Konfiguration) Folgendes durch:
    1. Wählen Sie Hash data (Daten hashen) in der Liste Function name (Funktionsname) aus.
    2. Klicken Sie auf das Symbol Dialogfeld öffnen neben der Liste Fields to process (Zu verarbeitende Felder), um alle Felder auszuwählen, da Sie alle Werte gleichzeitig hashen möchten.
      Im Dialogfeld „Data hashing (Datenhashing)“ werden die zu verarbeitenden Felder gezeigt.
  8. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor dem Vorgang mit denjenigen nach dem Vorgang zu vergleichen.

    Alle Felder wurden gehasht und gesichert und Sie können feststellen, dass die Felder crop (Getreide) und id denselben Ausgabewert aufweisen, d. h. der ursprüngliche Wert ist in beiden Feldern identisch.

    Vorschau des Prozessors vom Typ „Data hashing (Datenhashing)“ nach dem Hashen der Datensätze für Getreide und ID.
  9. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Field selector (Feldauswahl) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  10. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    merge identical hashed values (Identische gehashte Werte zusammenführen)
  11. Im Bereich Selectors (Selektoren):
    1. Wählen Sie .crop (.Getreide) in der Liste Input (Eingabe) aus und geben Sie crop_id (Getreide_ID) in die Liste Output (Ausgabe) ein, da die Felder .crop (.Getreide) und .id (.ID) identisch sind und zusammengeführt werden sollen.
    2. Klicken Sie auf das Pluszeichen (+), um ein neues Element hinzuzufügen, wählen Sie .crop_parent (.Getreibe_übergeordnet) in der Liste Input (Eingabe) aus und geben Sie crop_type (Getreide_typ) in die Liste Output (Ausgabe) ein, da Sie dieses Feld beibehalten und umbenennen möchten.
    3. Klicken Sie auf das Pluszeichen (+), um ein neues Element hinzuzufügen, wählen Sie .harvested_area (.Abgeerntetes_Gebiet) in der Liste Input (Eingabe) aus und geben Sie harvested_area (Abgeerntetes_Gebiet) in der Liste Output (Ausgabe) ein, da Sie dieses Feld in der Ausgabe beibehalten und umbenennen möchten.
    4. Klicken Sie auf das Pluszeichen (+), um ein neues Element hinzuzufügen, wählen Sie .value_of_production (.Wert_der_Produktion) in der Liste Input (Eingabe) aus und geben Sie production_value (Produktion_Wert) in die Liste Output (Ausgabe) ein, da Sie dieses Feld beibehalten und umbenennen möchten.
  12. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor dem Vorgang mit denjenigen nach dem Vorgang zu vergleichen.

    Vorschau des Prozessors vom Typ „Field selector (Feldauswahl)“ nach der Umbenennung und Umorganisation der Getreidedatensätze.
  13. Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) und wählen Sie den Datensatz aus, der die verarbeiteten Daten aufnehmen soll.
    Benennen Sie ihn um, falls erforderlich.
  14. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  15. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Die Pipeline wird ausgeführt, die Daten werden gehast, identische Felder zusammengeführt und gemäß den von Ihnen angegebenen Bedingungen neu organisiert und die Ausgabe wird an das von Ihnen angegebene Zielsystem gesendet.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!