Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Extrahieren eines Samples mit fester Größe eines Datensatzes über Autofahrer

Eine Pipeline mit einer Testquelle, einem Prozessor vom Typ „Data sampling (Daten-Sampling)“ und einem FTP-Ziel.

Vorbereitungen

  • Sie haben zuvor eine Verbindung zu dem System erstellt, in dem die Quelldaten gespeichert sind.

    In diesem Beispiel eine Testverbindung.

  • Sie haben zuvor den Datensatz hinzugefügt, der die Quelldaten enthält.

    Laden Sie folgende Datei herunter und extrahieren Sie sie: sampling-drivers.zip. Sie enthält einen Datensatz mit Daten zu schlechten Autofahrern, u. a. den Prozentsatz der aufgrund von Geschwindigkeit, Alkohol und Ablenkungen in tödliche Zusammenstöße verwickelte Fahrer, Informationen zu Autoversicherungen usw.

  • Sie haben außerdem die Verbindung und den zugehörigen Datensatz erstellt, der die verarbeiteten Daten aufnehmen soll.

    In diesem Beispiel ein auf einem FTP-Servr gespeicherter Ausgabeordner.

Prozedur

  1. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  2. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    Extract a subset of data about drivers (Teilgruppe der Daten zu Fahrern extrahieren)
  3. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie die Quelldaten, in diesem Fall Daten zu in tödliche Unfälle verwickelten Fahrern und Versicherungsdaten, auswählen können.

    Example

    Vorschau eines Datenbeispiels über Fahrerversicherungsdaten.
  4. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  5. Klicken Sie auf Plus und fügen Sie einen Prozessor vom Typ Data sampling (Daten-Sampling) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  6. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    extract 5 records (5 Datenelemente extrahieren)
  7. Führen Sie im Bereich Configuration (Konfiguration) Folgendes durch:
    1. Geben Sie „5“ in das Feld Number of records (Anzahl Datenelemente) ein, da Sie eine Teilgruppe des Originaldatensatzes mit nur 5 nach dem Zufallsprinzip ausgewählte Datenelemente erstellen möchten.
  8. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    Sehen Sie sich die Vorschau des Prozessors an, um die Daten vor dem Vorgang mit denjenigen nach dem Vorgang zu vergleichen.

    Wie Sie sehen, wurde eine Teilgruppe erstellt, die nur 5 willkürlich ausgewählte Datenelemente in der Ausgabe erstellt.

    Vorschau des Prozessors vom Typ „Data sampling (Daten-Sampling)“ nach dem Extrahieren von 5 willkürlich aus dem Quelldatensatz ausgewählten Datenelementen.
  9. Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) und wählen Sie den FTP-Ordner aus, der die Datenteilgruppe aufnehmen soll.
    Benennen Sie ihn um, falls erforderlich.
  10. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  11. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Die Pipeline wird ausgeführt, die Datenteilgruppe auf der Grundlage der von Ihnen angegebenen Anzahl an Datensätzen erstellt und die Ausgabe an den von Ihnen angegebenen FTP-Ordner gesendet. Diese Datenteilgruppen können dann von Datenwissenschaftlern für Predictive Analytics verwendet werden.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!