Opérationnalisation d'une recette dans un Job Talend

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Data Services Platform
Talend Big Data Platform
Talend ESB
Talend Data Management Platform
Talend Data Integration
Talend Data Fabric
Talend Big Data
Talend Real-Time Big Data Platform
Talend MDM Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Il est possible d'utiliser une préparation en tant que partie d'un flux d'intégration de données dans le Studio Talend.

Le tDataprepRun vous permet de réutiliser une préparation existante créée dans Talend Data Preparation, directement dans un Job d'intégration de données. En d'autres termes, vous pouvez opérationnaliser le processus d'application d'une préparation à des fichiers d'entrée ayant le même modèle.

Cet exemple vous montre un Job appliquant une préparation sur une entrée Salesforce et écrit la sortie dans une base de données Redshift. Cela présuppose qu'une préparation ait été précédemment créée, sur un jeu de données ayant le même schéma que votre fichier d'entrée dans le Job. Dans ce cas, la préparation existante est nommée datapreprun_preparation.

Le tDataprepRun est une étape intermédiaire et nécessite un flux d'entrée et un flux de sortie. Vous pouvez utiliser n'importe quel type de flux d'entrée et de sortie, mais un Job simple ressemblerait à ceci :

Avant de commencer

Afin de faire fonctionner le tDataprepRun lors de l'exécution de Talend Data Preparation avec une connexion https, effectuez la configuration suivante :

  • Récupérez le certificat de Talend Data Preparation, ou Certificate Authority et ajoutez-le à un fichier existant ou à un nouveau fichier .jks en suivant cet exemple : keytool -import -trustcacerts -alias <cert-alias> -file <dp_certificate.crt> -keystore <truststore.jks>
  • Pour que le Studio fasse confiance au certificat de Talend Data Preparation, modifiez le fichier .ini utilisé pour démarrer le Studio :
    -Djavax.net.ssl.trustStore=/path/to/<trust-store.jks>
    -Djavax.net.ssl.trustStorePassword=<trust-store password>
  • Connectez un composant tSetKeystore à un tSalesforceInput à l'aide d'un lien OnSubjobOk afin que le Job fasse confiance au certificat de Talend Data Preparation.

    Pour plus d'informations concernant la configuration du tSetKeystore, consultez la documentation du tSetKeystore.

Procédure

  1. Dans l'espace de modélisation graphique du Studio Talend, ajoutez un tSalesforceInput, un tDataprepRun, ainsi qu'un tRedshiftOutput et reliez-les à l'aide de liens Row > Main.
  2. Sélectionnez le composant tSalesforceInput et cliquez sur son onglet Component afin de configurer ses paramètres simples.
    Vérifiez que le schéma du composant tSalesforceInput correspond au schéma attendu par le tDataprepRun. En d'autres termes, le schéma d'entrée doit être le même que celui du jeu de données sur lequel la préparation a d'abord été créée.
  3. Sélectionnez le composant tDataprepRun et cliquez sur son onglet Component pour configurer ses paramètres simples.
  4. Saisissez vos informations de connexion à Talend Data Preparation.
  5. Cliquez sur le bouton Choose an existing preparation pour afficher une liste des préparations disponibles dans Talend Data Preparation.
  6. Cochez la case devant la préparation que vous souhaitez appliquer, puis cliquez sur OK.
  7. Cliquez sur le bouton Fetch Schema afin de récupérer le schéma de la préparation, datapreprun_preparation dans cet exemple.
    Le schéma de sortie du tDataprepRun reflète à présent les modifications effectuées à chaque étape de la préparation. Le schéma prend en compte les colonnes ayant été ajoutées ou supprimées, par exemple.
  8. Sélectionnez le composant tRedshiftOutput puis cliquez sur l'onglet Component pour configurer ses paramètres simples.
  9. Cliquez sur Sync columns pour récupérer le nouveau schéma de sortie, hérité du composant tDataprepRun.
  10. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Résultats

Toutes les étapes de la préparation datapreprun_preparation ont été appliquées à vos données, directement dans le flux de votre Job d'intégration de données.