Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Verwenden von Versionen in Talend-Jobs

Versionen von Datenaufbereitungen können in Studio Talend sowohl in Data Integration- als auch in Big Data-Jobs verwendet werden.

In Studio Talend ermöglicht Ihnen die tDataprepRun-Komponente die Wiederverwendung einer Datenaufbereitung oder einer ihrer Versionen sowie deren Anwendung auf Daten mit demselben Modell.

InformationshinweisAnmerkung: Um die tDataprepRun-Komponente mit Talend Cloud Data Preparation verwenden zu können, müssen Sie mindestens über Version 7.1 von Studio Talend verfügen.

Sie können eine Datenaufbereitung natürlich jederzeit in ihrem aktuellen Status verwenden, durch die Verwendung einer spezifischen Version lässt sich jedoch sicherstellen, dass in Ihren Jobs stets derselbe Status einer Datenaufbereitung zum Einsatz kommt, selbst wenn die Datenaufbereitung nach wie vor bearbeitet wird. Dadurch kann verbesserte Konsistenz gewährleistet werden.

Das folgende Beispiel illustriert einen Job, der eine vorhandene Datenaufbereitungsversion auf eine Salesforce-Eingabe anwendet und das Ergebnis in einer Redshift-Datenbank ausgibt.

Darstellung eines Jobs in Studio Talend

Diese Datenaufbereitung wurde ausgehend von einem Datensatz erstellt, der grundlegende Kundendaten enthält, wie z. B. Namen, Telefonnummern und E-Mailadressen. Es wurden ein paar Schritte angewendet, um Formatierungsfehler in den Namenseinträgen zu entfernen und ungültige Werte aus den Telefonnummern zu löschen.

Bereinigungsschritte bereits auf die Datenaufbereitung angewendet

Bei der Datenaufbereitung wurden zwei Versionen erstellt: Eine nach den ersten zwei Schritten und eine weitere nach den dritten Schritt.

Anzeige der Versionen

Vorbereitungen

  • Sie haben eine Datenaufbereitung mit mindestens einer Version in Talend Cloud Data Preparation erstellt. In diesem Fall weist die vorhandene Datenaufbereitung den Namen contacts cleansing (Kontaktbereinigung) auf.
  • Die aus Salesforce importierten Daten müssen über dasselbe Schema verfügen wie der zur ursprünglichen Erstellung der Datenaufbereitung verwendete Datensatz.

Prozedur

  1. Erstellen Sie in Studio Talend einen neuen Standard- oder Spark-Job.
  2. Fügen Sie im Entwurfsbereich von Studio Talend tSalesforceInput, tDataprepRun und tRedshiftOutput hinzu und verbinden Sie alle mithilfe von zwei Verknüpfungen Row (Zeile) > Main (Haupt).
  3. Wählen Sie die Komponente tSalesforceInput aus und klicken Sie auf die Registerkarte Component (Komponente), um deren Basiseinstellungen zu definieren.

    Vergewissern Sie sich, dass das Schema der Komponente tSalesforceInput dem von der Komponente tDataprepRun erwarteten Schema entspricht.

  4. Wählen Sie die Komponente tDataprepRun aus und klicken Sie auf die Registerkarte Component, um deren Basiseinstellungen zu definieren.
    Eigenschaften der Komponente tDataprepRun in Studio Talend
  5. Geben Sie Ihre Verbindungsinformationen für Talend Cloud Data Preparation ein.
  6. Klicken Sie auf Choose an existing preparation (Vorhandene Datenaufbereitung auswählen), um die Liste der in Talend Cloud Data Preparation verfügbaren Datenaufbereitungen anzuzeigen.
    Geöffnetes Dialogfeld zur Auswahl einer vorhandenen Datenaufbereitung („Choose an existing preparation) in Studio Talend
  7. Aktivieren Sie das Kontrollkästchen vor dem Eintrag contacts cleansing (Kontaktbereinigung), der die anzuwendende Datenaufbereitungsversion enthält, und klicken Sie dann auf OK.
  8. Klicken Sie auf choose a version (Version auswählen), um in der Liste der verfügbaren Versionen eine Auswahl für Ihre Datenaufbereitung zu treffen. Wählen Sie in diesem Fall Version 1 aus.
    Geöffnetes Dialogfeld zur Festlegung der Version („Set the version“) in Studio Talend

    Standardmäßig verwendet der Job die Version current state (Aktueller Status) der ausgewählten Datenaufbereitung. Die Verwendung von current state (Aktueller Status) anstelle einer bestimmten Version bedeutet im Kontext von Zusammenarbeit, dass jemand eventuell Änderungen an der Datenaufbereitung vorgenommen hat und Sie davon keine Kenntnis haben.lei Infolgedessen können Sie nicht genau wissen, welches Ergebnis Ihr Job erzielen wird. Aus diesem Grund ist es sicherer, eine bestimmte Version in Ihren Jobs zu verwenden.

  9. Klicken Sie auf Fetch Schema (Schema abrufen), um das Schema von contacts cleansing (Kontaktbereinigung) abzurufen.
  10. Wählen Sie die Komponente tRedshiftOutput aus und klicken Sie auf die Registerkarte Component (Komponente), um deren Basiseinstellungen zu definieren.
  11. Speichern Sie Ihren Job und drücken Sie F6 , um ihn auszuführen.

Ergebnisse

Alle in der Version der Datenaufbereitung enthaltenen Datenaufbereitungsschritte werden direkt im Flow des Jobs auf Ihre Daten angewendet.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!