Utilisation d'une version dans un Job Talend - 2.1

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Les versions des préparations peuvent être utilisées dans des Jobs d'intégration de données ou dans des Jobs Big Data dans le Studio Talend.

Dans le Studio Talend, le tDataprepRun vous permet de réutiliser une préparation, ou l'une de ses versions et de l'appliquer sir les données avec le même modèle.

Vous avez toujours la possibilité d'utiliser une préparation dans sa version courante, mais l'utilisation d'une version spécifique peut assurer que l'état de la préparation utilisée dans vos Jobs est toujours le même, même si la préparation est toujours en cours de modification. Cela donne une meilleure cohérence à votre travail.

L'exemple suivant présente un Job appliquant une version d'une préparation existante sur une entrée Salesforce et écrivant en sortie dans une base de données Redshift.

Cette préparation a été appliquée sur un jeu de données contenant des informations clients simples telles que les noms, les numéros de téléphone et les adresses e-mail. Quelques étapes ont été appliquées pour supprimer les erreurs de formatage dans les noms et supprimer les valeurs invalides des numéros de téléphone.

Deux versions ont été créées au cours de la préparation : une après les deux premières étapes et une après la troisième.

Avant de commencer

  • Vous devez avoir créé une préparation avec au moins une version dans Talend Data Preparation. Dans cet exemple, la préparation existante se nomme contacts cleansing.
  • Les données importées de Salesforce doivent avoir le même schéma que celui du jeu de données utilisé pour créer la préparation.

Procédure

  1. Dans le Studio Talend, créez un nouveau Job Standard ou Spark.
  2. Dans l'espace de modélisation graphique du Studio Talend, ajoutez un tSalesforceInput, un tDataprepRun, un tRedshiftOutput et reliez-les à l'aide de liens Row > Main.
  3. Sélectionnez le composant tSalesforceInput et cliquez sur l'onglet Component pour configurer ses propriétés simples.

    Vérifiez que le schéma du tSalesforceInput correspond au schéma attendu par le tDataprepRun.

  4. Sélectionnez le composant tDataprepRun et cliquez sur l'onglet Component pour configurer ses propriétés simples
  5. Saisissez vos informations de connexion à Talend Data Preparation.
  6. Cliquez sur Choose an existing preparation pour afficher la liste des préparations disponibles dans Talend Data Preparation.
  7. Cochez la case devant contacts cleansing contenant la version de la préparation à appliquer et cliquez sur OK.
  8. Cliquez sur choose a version pour sélectionner une version de la liste des versions disponibles pour votre préparation. Dans cet exemple, sélectionnez la version 1.

    Par défaut, le Job utilise l'état current state de la préparation sélectionnée. Utiliser current state au lieu d'une version fixe, signifie, dans le contexte d'un travail collaboratif, qu'une personne peut faire des modifications sur la préparation, sans que vous le sachiez. En conséquence, vous ne savez pas précisément comment va se dérouler l'exécution de votre Job. C'est la raison pour laquelle il est recommandé d'utiliser les versions au sein des Jobs.

  9. Cliquez sur Fetch Schema pour récupérer le schéma de contacts cleansing.
  10. Sélectionnez le composant tRedshiftOutput et cliquez sur l'onglet Component pour configurer ses propriétés simples.
  11. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Résultats

Toutes les étapes de préparation comprises dans la version de la préparation ont été appliquées à vos données, directement dans le flux du Job.