Automatisches Formatieren von Daten auf der Grundlage von Beispielen - Cloud

Nutzungshandbuch für Talend Cloud Data Preparation

Version
Cloud
Language
Deutsch
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration und Überwachung > Verwaltung von Verbindungen
Datenqualität und Datenaufbereitung > Bereinigung von Daten
Datenqualität und Datenaufbereitung > Verwaltung von Datensätzen
Last publication date
2024-04-18

Die Funktion „Magic Fill“ bietet eine praktische Möglichkeit, Datentyp zu formatieren, für die keine dedizierte Funktion verfügbar ist, oder ganz einfach eine Folge von Transformationen mit derselben Funktion durchzuführen.

Anmerkung: Diese Funktion ist nicht mit Spark-Jobs und HDFS- oder S3-Exporten kompatibel.

Über einen Machine-Learning-Algorithmus ermöglicht Ihnen diese neue Funktion auf der Grundlage einer Reihe von Beispielen, die Sie zuvor definiert haben, die Definition eines Musters sowie die automatische Anwendung einer Transformation auf eine ganze Spalte.

Zurzeit unterstützt die Magic-Fill-Funktion folgende Transformationstypen:

  • Teilzeichenfolge (Substring)
  • Addition von Konstanten (Zahlen, Buchstaben, Sonderzeichen)
  • Unterscheidung zwischen Groß-/Kleinschreibung
  • Semantische Transformation für Länder, US-amerikanische Postleitzahlen und Bundesstaaten, E-Mailadressen, URLs und Datumsangaben

Damit die Funktion ordnungsgemäß ausgeführt werden kann, müssen Sie mindestens zwei Beispiele für die anzuwendende Transformation eingeben. Anschließend können Sie bis zu drei weitere Beispiele hinzufügen. Je mehr Beispiele Sie eingeben, umso präziser wird das Muster von der Funktion identifiziert.

Wenn das von der Funktion generierte Transformationsprogramm nicht auf einige Daten der Quellspalte angewendet werden kann, bleiben diese in der Zielspalte unverändert.

Datentypen wie dates (Daten) oder phone numbers (Telefonnummern) verfügen beide über eine dedizierte Funktion, die für eine einfache Änderung ihres Format eingesetzt werden kann. Die Datentypen full names (Vollständige Namen), social security numbers (Sozialversicherungsnummern) und state codes (Codes der Bundesstaaten) hingegen nicht. Die folgenden Szenarien illustrieren die Verwendung der Funktion „Magic Fill“ zur Formatierung Ihrer Daten in diesen Fällen.