Utilisation du composant tDataprepRun pour appliquer une préparation à un échantillon de données dans un Job Apache Spark Streaming

Utilisation du composant tDataprepRun pour appliquer une préparation à un échantillon de données dans un Job Apache Spark Streaming

EnrichVersion
6.4
task
Gouvernance de données > Systèmes tiers > Composants Data Preparation
Qualité et préparation de données > Systèmes tiers > Composants Data Preparation
Création et développement > Systèmes tiers > Composants Data Preparation
EnrichPlatform
Studio Talend
Talend Data Preparation

Ce scénario s'applique uniquement aux solutions Talend Real-time Big Data Platform et Talend Data Fabric.

Le composant tDataprepRun vous permet de réutiliser une préparation existante créée dans Talend Data Preparation, directement dans un Job d'intégration de données. En d'autres termes, vous pouvez opérationnaliser le processus d'application d'une préparation à des fichiers d'entrée ayant le même modèle.

Le scénario suivant décrit un Job simple qui :

  • utilise un petit échantillon de données de clients,
  • applique une préparation existante sur ces données,
  • affiche le résultat de la transformation dans la console.

Cela présuppose qu'une préparation ait été précédemment créée, sur un jeu de données ayant le même schéma que vos données d'entrée dans le Job. Dans ce cas, la préparation existante est nommée datapreprun_spark. Cette préparation assez simple met les noms des employés en majuscule, et applique un filtre pour n'afficher que les clients originaires de Californie, du Texas et de Floride.

L'échantillon de données utilisé est le suivant :
James;Butt;California
Daniel;Fox;Connecticut
Donna;Coleman;Alabama
Thomas;Webb;Illinois
William;Wells;Florida
Ann;Bradley;California
Sean;Wagner;Florida
Elizabeth;Hall;Minnesota
Kenneth;Jacobs;Florida
Kathleen;Crawford;Texas
Antonio;Reynolds;California
Pamela;Bailey;Texas
Patricia;Knight;Texas
Todd;Lane;New Jersey
Dorothy;Patterson;Virginia
Remarque : Cet échantillon de données est créé uniquement à des fins de test.

Prérequis : assurez-vous de la bonne installation et du bon fonctionnement du cluster Spark.