Appliquer une préparation sur des tables ADLS Gen2 Delta - Cloud - 8.0

Azure Data Lake Store

Version
Cloud
8.0
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Stockages Cloud > Composants Azure > Composants Azure Data Lake Store
Gouvernance de données > Systèmes tiers > Stockages Cloud > Composants Azure > Composants Azure Data Lake Store
Qualité et préparation de données > Systèmes tiers > Stockages Cloud > Composants Azure > Composants Azure Data Lake Store

Ce scénario récupère des données depuis un système de fichiers Azure ADLS Gen2, prépare les données et les affiche.

Pour plus de technologies supportées par Talend, consultez Composants Talend.

Ce scénario présente comment récupérer une table Delta d'un système de fichiers ADLS Gen2, appliquer une préparation compatible sur le flux du Job et lire les données qui en résultent.

Le composant tAzureAdlsGen2Input vous permet d'accéder à votre stockage Azure, plus particulièrement à vos tables Delta. En utilisant le composant tDataprepRun au milieu de votre Job, vous pouvez même réutiliser une préparation existante, créée dans Talend Data Preparation, pour transformer et nettoyer les données avant de les lire ou de les écrire dans la destination de votre choix.

Le scénario suivant décrit un Job simple qui :

  • Récupère des données client·es d'une table Databricks Delta
  • Applique directement une préparation avec un schéma compatible
  • Lit les données dans le composant de sortie

Dans cet exemple, la table Delta contient des informations client·es simples, comme les noms, les âges, les dates d'anniversaire ou encore les numéros de téléphone.

Ce scénario suppose qu'une préparation a été précédemment créée, sur un jeu de données ayant le même schéma que les données d'entrée du Job. Dans ce cas, la préparation existante est nommée preparation_adlsgen2.

Remarque : Avoir le même schéma des deux côtés assure un résultat cohérent. Cependant, le Job s'exécute même si les schémas sont différents.

Cette préparation simple met les noms de famille en majuscules et modifie le format de date.