Utilisation d'une version dans un Job Talend - 8.0

Guide d'utilisation de Talend Data Preparation

Version
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-03-27

Les versions peuvent être utilisées dans des Jobs d'intégration de données et des Jobs Big Data dans le Studio Talend.

Dans le Studio Talend, le tDataprepRun vous permet de réutiliser une préparation ou l'une de ses versions et de l'appliquer sur les données avec le même modèle.

Vous avez toujours la possibilité d'utiliser une préparation dans sa version courante, mais l'utilisation d'une version spécifique peut assurer que l'état de la préparation utilisée dans vos Jobs est toujours le même, même si la préparation est toujours en cours de modification. Cela donne une meilleure cohérence à votre travail.

L'exemple suivant présente un Job appliquant une version d'une préparation existante sur une entrée Salesforce et écrivant en sortie dans une base de données Redshift.

Cette préparation a été appliquée sur un jeu de données contenant des informations clients simples telles que les noms, les numéros de téléphone et les adresses e-mail. Quelques étapes ont été appliquées pour supprimer les erreurs de formatage dans les noms et supprimer les valeurs invalides des numéros de téléphone.

Deux versions ont été créées au cours de la préparation : une après les deux premières étapes et une après la troisième.

Avant de commencer

  • Vous devez avoir créé une préparation avec au moins une version dans Talend Data Preparation. Dans cet exemple, la préparation existante se nomme contacts cleansing.
  • Les données importées de Salesforce doivent avoir le même schéma que celui du jeu de données utilisé pour créer la préparation.

Procédure

  1. Dans le Studio Talend, créez un nouveau Job Standard ou Spark.
  2. Dans l'espace de modélisation graphique du Studio Talend, ajoutez un tSalesforceInput, un tDataprepRun, ainsi qu'un tRedshiftOutput et reliez-les à l'aide de liens Row > Main.
  3. Sélectionnez le composant tSalesforceInput et cliquez sur son onglet Component afin de configurer ses paramètres simples.

    Vérifiez que le schéma du composant tSalesforceInput correspond au schéma attendu par le tDataprepRun.

  4. Sélectionnez le composant tDataprepRun et cliquez sur son onglet Component pour configurer ses paramètres simples.
  5. Saisissez vos informations de connexion à Talend Data Preparation.
  6. Cliquez sur Choose an existing preparation pour afficher la liste des préparations disponibles dans Talend Data Preparation.
  7. Cochez la case devant contacts cleansing contenant la version de la préparation à appliquer et cliquez sur OK.
  8. Cliquez sur choose a version pour sélectionner une version de la liste des versions disponibles pour votre préparation. Dans cet exemple, sélectionnez la version 1.

    Par défaut, le Job utilise l'état current state de la préparation sélectionnée. Utiliser current state au lieu d'une version fixe, signifie, dans le contexte d'un travail collaboratif, qu'une personne peut faire des modifications sur la préparation, sans que vous le sachiez. En conséquence, vous ne savez pas précisément comment va se dérouler l'exécution de votre Job. C'est la raison pour laquelle il est recommandé d'utiliser les versions au sein des Jobs.

  9. Cliquez sur Fetch Schema pour récupérer le schéma de contacts cleansing.
  10. Sélectionnez le composant tRedshiftOutput, puis cliquez sur l'onglet Component pour configurer ses paramètres simples.
  11. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Résultats

Toutes les étapes de préparation comprises dans la version de la préparation ont été appliquées à vos données, directement dans le flux du Job.