Promouvoir un Job utilisant une préparation à travers des environnements - 7.3

Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Preparation
Gouvernance de données > Systèmes tiers > Composants Data Preparation
Qualité et préparation de données > Systèmes tiers > Composants Data Preparation
EnrichPlatform
Studio Talend
Talend Data Preparation

Ce scénario s'applique uniquement aux solutions Talend nécessitant souscription.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Le composant tDataprepRun vous permet de réutiliser une préparation existante créée dans Talend Data Preparation, directement dans un Job d'intégration de données, Spark Batch ou Spark Streaming. En d'autres termes, vous pouvez opérationnaliser le processus d'application d'une préparation à des fichiers d'entrée ayant le même modèle.

La bonne pratique, lors de l'utilisation de Talend Data Preparation est de configurer au moins deux environnements de travail : un environnement de développement et un environnement de production par exemple. Lorsqu'une préparation est prête sur l'environnement de développement, vous pouvez utiliser la fonctionnalité Import/Export Preparation pour la promouvoir sur l'environnement de production, qui possède un URL différent. Pour plus d'informations, consultez la section Promouvoir une préparation à travers des environnements.

En suivant cette logique, vous allez vraisemblablement vous retrouver avec une préparation avec le même nom dans vos deux environnements. Il se trouve que les préparations ne sont en fait pas définies par leur nom, mais grâce à un identifiant technique tel que prepid=faf4fe3e-3cec-4550-ae0b-f1ce108f83d5. Par conséquent, vous possédez en fait deux préparations bien distinctes, chacune avec son identifiant spécifique.

Si vous aviez voulu opérationnaliser des préparations dans un Job Talend en utilisant les propriétés de sélection de préparations classiques, il vous aurait fallu plusieurs Jobs : un premier pour la préparation de l'environnement de développent, avec des URL et ID spécifiques, et un second pour l'environnement de production, avec différents paramètres.

En cochant la case Dynamic preparation selection et en utilisant quelques variables de contexte, vous pourrez utiliser un seul Job pour exécuter la préparation, quel que soit l'environnement. En effet, la sélection dynamique de préparation repose sur le chemin de la préparation dans Talend Data Preparation, et non pas sur son identifiant technique.

Vous aller pouvoir utiliser un seul Job à ensuite déployer sur votre environnement de développement ou de production.

Le scénario suivant décrit un Job simple qui :

  • Reçoit des données d'un fichier CSV local contenant des données clients,
  • Récupère de manière dynamique une préparation existante, en se basant sur son chemin et environnement,
  • Applique la préparation sur les données source,
  • Envoie les données préparées dans une base de données MySQL.

Dans cet exemple, la préparation customers_leads a été créée au préalable dans Talend Data Preparation. Cette préparation simple a été créée sur un jeu de données qui possède le même schéma que le fichier CSV utilisé comme source de ce Job et vise à supprimer les valeurs invalides de vos données clients.