Utilisation d'une version dans un Job Talend - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Les versions des préparations peuvent être utilisées dans des Jobs d'intégration de données ou dans des Jobs Big Data dans le Studio Talend.

Dans le Studio Talend, le tDataprepRun vous permet de réutiliser une préparation ou l'une de ses versions et de l'appliquer sur les données avec le même modèle.

Remarque : Pour pouvoir utiliser le composant tDataprepRun avec Talend Cloud Data Preparation, vous devez posséder la version 7.1 du Studio Talend.

Vous avez toujours la possibilité d'utiliser une préparation dans sa version courante, mais l'utilisation d'une version spécifique peut vous assurer que l'état de la préparation utilisée dans vos Jobs soit toujours le même, même si la préparation est toujours en cours de modification. Cela donne une meilleure cohérence à votre travail.

L'exemple suivant présente un Job appliquant une version d'une préparation existante sur une entrée Salesforce et écrivant en sortie dans une base de données Redshift.

Cette préparation a été appliquée sur un jeu de données contenant des informations clients simples telles que les noms, les numéros de téléphone et les adresses e-mail. Quelques étapes ont été appliquées pour supprimer les erreurs de formatage dans les noms et supprimer les valeurs invalides des numéros de téléphone.

Deux versions ont été créées au cours de la préparation : une après les deux premières étapes et une après la troisième.

Avant de commencer

  • Vous devez avoir créé une préparation avec au moins une version dans Talend Cloud Data Preparation. Dans cet exemple, la préparation existante se nomme contacts cleansing.
  • Les données importées de Salesforce doivent avoir le même schéma que celui du jeu de données utilisé pour créer la préparation.

Procédure

  1. Dans le Studio Talend, créez un nouveau Job Standard ou Spark.
  2. Dans l'espace de modélisation graphique du Studio Talend, ajoutez un tSalesforceInput, un tDataprepRun, ainsi qu'un tRedshiftOutput et reliez-les à l'aide de liens Row > Main.
  3. Sélectionnez le composant tSalesforceInput et cliquez sur son onglet Component afin de configurer ses paramètres simples.

    Vérifiez que le schéma du composant tSalesforceInput correspond au schéma attendu par le tDataprepRun.

  4. Sélectionnez le composant tDataprepRun et cliquez sur son onglet Component pour configurer ses paramètres simples.
  5. Saisissez vos informations de connexion à Talend Cloud Data Preparation.
  6. Cliquez sur Choose an existing preparation pour afficher la liste des préparations disponibles dans Talend Cloud Data Preparation.
  7. Cochez la case devant contacts cleansing contenant la version de la préparation à appliquer et cliquez sur OK.
  8. Cliquez sur choose a version pour sélectionner une version de la liste des versions disponibles pour votre préparation. Dans cet exemple, sélectionnez la version 1.

    Par défaut, le Job utilise l'état current state de la préparation sélectionnée. Utiliser current state au lieu d'une version fixe, signifie, dans le contexte d'un travail collaboratif, qu'une personne peut faire des modifications sur la préparation, sans que vous le sachiez. En conséquence, vous ne savez pas précisément comment va se dérouler l'exécution de votre Job. C'est la raison pour laquelle il est recommandé d'utiliser les versions au sein des Jobs.

  9. Cliquez sur Fetch Schema pour récupérer le schéma de contacts cleansing.
  10. Sélectionnez le composant tRedshiftOutput, puis cliquez sur l'onglet Component pour configurer ses paramètres simples.
  11. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Résultats

Toutes les étapes de préparation comprises dans la version de la préparation ont été appliquées à vos données, directement dans le flux du Job.