Opérationnalisation d'une recette dans un Job Talend Spark Batch ou Streaming

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend MDM Platform
Talend Real-Time Big Data Platform
Talend Data Services Platform
Talend Big Data
Talend Data Management Platform
Talend Data Fabric
Talend ESB
Talend Data Integration
Talend Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Le composant tDataprepRun vous permet de réutiliser une préparation existante effectuée dans Talend Data Preparation, directement dans un Job Big Data.

En d'autres termes, vous pouvez opérationnaliser le processus d'application d'une préparation à des données d'entrée ayant le même modèle, dans un Job Spark Batch ou Spark Streaming.

Prenez l'exemple d'un Job simple :

  • lisant des données clients d'un fichier .csv dans HDFS,
  • appliquant une préparation existante sur ces données,
  • écrivant en sortie dans une base de données Hive.

Cela suppose qu'une préparation ait été créée précédemment, sur un jeu de données ayant le même schéma que vos données d'entrée pour le Job. Dans ce cas, la préparation existante se nomme datapreprun_spark. Cette préparation a été effectuée sur un jeu de données contenant des données relatives à des clients du monde entier, notamment leur nom, leur adresse e-mail, leur date de souscription et leur pays de résidence. Cette préparation simple applique un filtre sur les données afin de conserver uniquement les clients de Chine et de Russie, harmoniser le format de date et extraire les différentes parties de l'adresse e-mail.

Notez que si une préparation contient des actions affectant une seule ligne ou des cellules, elles seront ignorées par le composant tDataprepRun au cours du Job. Les fonctions Make as header ou Delete Row, par exemple, ne fonctionnent pas dans un contexte Big Data.

Procédure

  1. Dans le Studio Talend, créez un nouveau Job Spark Batch ou bien Spark Streaming.
  2. Dans l'espace de modélisation graphique, ajoutez un tHDFSConfiguration, un tFileInputDelimited, un tDataprepRun et un tHiveOutput.
  3. Reliez les composants tFileInputDelimited, tDataprepRun et tHiveOutput à l'aide de liens Row > Main.
  4. Sélectionnez le composant tHDFSConfiguration et cliquez sur son onglet Run pour configurer les paramètres de l'onglet Spark Configuration.

    Pour plus d'informations sur la manière de configurer le composant tHDFSConfiguration, consultez Propriétés du tHDFSConfiguration pour Apache Spark Batch ou bien Propriétés du tHDFSConfiguration pour Apache Spark Streaming.

  5. Sélectionnez le composant tFileInputDelimited et cliquez sur son onglet Component pour configurer ses propriétés simples.

    Assurez-vous que le schéma du composant tFileInputDelimited corresponde au schéma attendu par le composant tDataprepRun. En d'autres termes, le schéma d'entrée doit être le même que celui du jeu de données sur lequel la préparation datapreprun_spark a été effectuée.

  6. Sélectionnez le composant tDataprepRun et cliquez sur l'onglet Component afin de définir ses paramètres simples.
  7. Dans le champ URL, saisissez l'URL de l'application Web Talend Data Preparation.

    Le port 9999 est le port par défaut de Talend Data Preparation.

  8. Dans les champs Username et Password, saisissez vos informations de connexion à Talend Data Preparation, entre guillemets doubles.
  9. Cliquez sur Choose an existing preparation pour afficher une liste des préparations disponibles dans Talend Data Preparation, puis sélectionnez datapreprun_spark.

    Un avertissement s'affiche près des préparations contenant des actions incompatibles, affectant uniquement une ligne ou une cellule.

  10. Cliquez sur Fetch Schema pour récupérer le schéma de la préparation, datapreprun_spark dans cet exemple.

    Le schéma de sortie du composant tDataprepRun reflète les modifications effectuées dans chaque étape de préparation. Le schéma prend en compte les colonnes ayant été ajoutées ou supprimées, par exemple.

  11. Sélectionnez le composant tHiveOutput et cliquez sur l'onglet Component configurer ses propriétés simples.
  12. Cliquez sur Sync columns afin de récupérer le nouveau schéma de sortie, hérité du composant tDataprepRun.
  13. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Résultats

Toutes les étapes de préparation de datapreprun_spark ont été appliquées à vos données, directement dans le flux du Job d'intégration de données.