Opérationnalisation d'une recette dans un Job Talend Spark Batch

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.3
2.0
EnrichProdName
Talend Data Fabric
Talend Real-Time Big Data Platform
Talend Big Data Platform
Talend Big Data
Talend MDM Platform
Talend Data Integration
Talend Data Services Platform
Talend Data Management Platform
Talend ESB
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Le composant tDataprepRun vous permet de réutiliser une préparation existante effectuée dans Talend Data Preparation, directement dans un Job Big Data.

En d'autres termes, vous pouvez opérationnaliser le processus d'application d'une préparation à des données d'entrée ayant le même modèle.

Prenez l'exemple d'un Job simple :

  • lisant des données clients d'un fichier .csv dans HDFS,
  • appliquant une préparation existante sur ces données,
  • écrivant en sortie dans une base de données Hive.

Cela suppose qu'une préparation ait été créée précédemment, sur un jeu de données ayant le même schéma que vos données d'entrée pour le Job. Dans ce cas, la préparation existante se nomme datapreprun_spark. Cette préparation a été effectuée sur un jeu de données contenant des données relatives à des clients du monde entier, notamment leur nom, leur adresse e-mail, leur date de souscription et leur pays de résidence. Cette préparation simple applique un filtre sur les données afin de conserver uniquement les clients de Chine et de Russie, harmoniser le format de date et extraire les différentes parties de l'adresse e-mail.

Notez que si une préparation contient des actions affectant une seule ligne ou des cellules, elles seront ignorées par le composant tDataprepRun au cours du Job. Les fonctions Make as header ou Delete Row, par exemple, ne fonctionnent pas dans un contexte Big Data.

Procédure

  1. Dans le Talend Studio, créez un nouveau Job Spark Batch.
  2. Dans l'espace de modélisation graphique, ajoutez un tHDFSConfiguration, un tFileInputDelimited, un tDataprepRun et un tHiveOutput.
  3. Reliez les composants tFileInputDelimited, tDataprepRun et tHiveOutput à l'aide de liens Row > Main.
  4. Sélectionnez le composant tFileInputDelimited et cliquez sur son onglet Component pour configurer ses propriétés simples.

    Assurez-vous que le schéma du composant tFileInputDelimited corresponde au schéma attendu par le composant tDataprepRun. En d'autres termes, le schéma d'entrée doit être le même que celui du jeu de données sur lequel la préparation datapreprun_spark a été effectuée.

  5. Sélectionnez le composant tDataprepRun et cliquez sur l'onglet Component afin de définir ses paramètres simples.
  6. Dans le champ URL, saisissez l'URL de l'application Web Talend Data Preparation.

    Le port 9999 est le port par défaut de Talend Data Preparation.

  7. Dans les champs Username et Password, saisissez vos informations de connexion à Talend Data Preparation, entre guillemets doubles.
  8. Cliquez sur Choose an existing preparation pour afficher une liste des préparations disponibles dans Talend Data Preparation, puis sélectionnez datapreprun_spark.

    Un avertissement s'affiche près des préparations contenant des actions incompatibles, affectant uniquement une ligne ou une cellule.

  9. Cliquez sur Fetch Schema pour récupérer le schéma de la préparation, datapreprun_spark dans cet exemple.

    Le schéma de sortie du composant tDataprepRun reflète les modifications effectuées dans chaque étape de préparation. Le schéma prend en compte les colonnes ayant été ajoutées ou supprimées, par exemple.

  10. Sélectionnez le composant tHiveOutput et cliquez sur l'onglet Component configurer ses propriétés simples.
  11. Cliquez sur Sync columns afin de récupérer le nouveau schéma de sortie, hérité du composant tDataprepRun.
  12. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Résultats

Toutes les étapes de préparation de datapreprun_spark ont été appliquées à vos données, directement dans le flux du Job d'intégration de données.