tDataStewardshipTaskInput - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Le tDataStewardshipTaskInput se connecte au serveur de Talend Data Stewardship et récupère les données stockées dans les campagnes sous forme de tâches. Il récupère les tâches selon certains critères de recherche, mais toutes les tâches récupérées appartiennent à la même campagne et doivent avoir le même schéma. Vous pouvez ensuite traiter ces données et/ou les écrire dans des applications ou systèmes cible.

Pour plus d'informations concernant Talend Data Stewardship, consultez la documentation de Talend Data Stewardship sur Talend Help Center https://help.talend.com (en anglais).

Propriétés du tDataStewardshipTaskInput dans des Jobs standard

Basic settings

Ces propriétés sont utilisées pour configurer le composant tDataStewardshipTaskInput lorsqu'il s'exécute dans un framework de Jobs standard.

Le composant tDataStewardshipTaskInput standard appartient à la famille Talend Data Stewardship.

Property Type

Peut-être Built-in ou Repository.

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Les colonnes ci-dessous sont automatiquement ajoutées à ce composant et sont en lecture seule. Elles donnent les métadonnées de la tâche.

  • TDS_ID : identifiant de la tâche.

  • TDS_STATE : état courant de la tâche.

  • TDS_ASSIGNEE : personne à qui la tâche est assignée.

  • TDS_LAST_UPDATE : date de dernière mise à jour de la tâche.

  • TDS_LAST_UPDATED_BY : identifiant du dernier utilisateur ayant mis à jour la tâche.

  • TDS_PRIORITY : valeur numérique représentant le niveau de priorité de la tâche dans l'application Web. Chaque valeur numérique est récupérée à partir d'une valeur de texte, comme ci-dessous :

    • Very Low = 0

    • Low = 1

    • Medium = 2

    • High = 3

    • Very High = 3

    Le niveau No Priority est configuré par défaut à Medium = 2.

  • TDS_TAGS : mot(s)-clé(s) assignés à la tâche récupérés en liste de valeurs séparées par des virgules.

  • TDS_ARBITRATION : (disponible uniquement lorsque le type de campagne ARBITRATION est sélectionné) choix assigné à la tâche.

  • TDS_MASTER : (disponible uniquement lorsque le type de campagne MERGING est sélectionné) indique si l'enregistrement est un enregistrement maître.

  • TDS_SOURCE : (disponible uniquement lorsque le type de campagne MERGING est sélectionné) nom de la source de l'enregistrement.

URL

Saisissez l'adresse pour accéder au serveur de Talend Data Stewardship, avec le suffixe /data-stewardship/, par exemple http://localhost:8990/data-stewardship/.

Username et Password

Saisissez les informations d'authentification au serveur de Talend Data Stewardship.

Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

Campaign

Cliquez sur Find a campaign pour ouvrir une liste de toutes les campagnes disponibles sur le serveur et sélectionnez la campagne de laquelle supprimer les tâches.

Label

Champ en lecture seule affichant le nom de la campagne une fois la campagne sélectionnée.

Type

Liste en lecture seule affichant le type de campagne parmi les types prédéfinis, une fois la campagne sélectionnée.

Override enforcement of data model

Cochez cette case si vous souhaitez traiter les données sur le serveur de Talend Data Stewardship, même si le type de schéma est invalide. Aucune validation d'entrée du schéma n'est effectuée. Cette case est cochée par défaut pour les campagnes RESOLUTION. Cependant, cette case doit être cochée pour tous les types de campagnes, afin de garantir un traitement des données sans accroc.

State et Assignee

State : sélectionnez dans la liste l'état de la tâche que vous souhaitez supprimer.

Assignee : sélectionnez le participant de la campagne dont vous souhaitez supprimer les tâches. Sinon, sélectionnez No Assignee pour supprimer les tâches par critères de recherche, sans prendre en compte les personnes assignées.

Sinon, sélectionnez Custom et configurez une expression personnalisée dans le champ qui s'affiche.

Priority, Choice et Tags

Priority (facultatif) : sélectionnez l'une des priorités des tâches. Sinon, sélectionnez Custom et configurez une expression personnalisée dans le champ qui s'affiche.

Choice (facultatif, disponible uniquement lorsqu'une campagne ARBITRATION est sélectionnée) : sélectionnez l'une des options configurées sur les tâches de la campagne.

Tags (facultatif) : sélectionnez le ou les mots-clés assignés aux tâches. Vous pouvez utiliser les mots-clés pour filtrer les tâches à récupérer.

Query

Saisissez l'instruction de requête que vous souhaitez utiliser pour filtrer les tâches à traiter.

La condition se compose d'un nom de champ, d'un opérateur et d'une valeur. Lorsque vous référencez des données d'enregistrements, le nom du champ doit comporter le préfixe record.. Par exemple, pour filtrer les tâches par personne assignée et valeur du prénom, lorsque vous avez un champ FirstName dans l'enregistrement, utilisez user@company.com dans le champ Assignee et record.firstName='John' dans le champ Query.

Pour plus d'informations sur le langage utilisé pour créer des requêtes et filtrer des données sur le serveur de Talend Data Stewardship, consultez l'article The query language used with Talend Data Stewardship components sur Talend Help Center https://help.talend.com (en anglais).

Retrieve golden record only

Cochez cette case pour lire uniquement les enregistrements maître résultant du processus de fusion.

Cette option est sélectionnée par défaut et est disponible uniquement avec les campagnes de type MERGING.

Advanced settings

Batch Size

Configurez le nombre de lignes que vous souhaitez dans chaque lot traité.

Ne modifiez pas la valeur par défaut, sauf si vous rencontrez des problèmes de performance. Augmenter la taille du lot peut améliorer les performances, mais une valeur trop haute peut causer des échecs du Job.

Consume tasks when they are read

Cette case est cochée par défaut pour marquer les tâches comme consommées sur le serveur de Talend Data Stewardship une fois récupérées par le composant. Ces tâches ne seront pas récupérées une seconde fois lorsque vous exécutez à nouveau le Job avec les mêmes critères de filtre.

Assurez-vous de décocher cette case uniquement pour les cas d'utilisation spécifiques, sinon vous risquez fortement de traiter deux fois les mêmes tâches.

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de traitement du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Variables globales

NB_LINE

Nombre de messages traités. Cette variable est une variable After et retourne un entier.

NB_REJECT

Nombre de lignes rejetées. Cette variable est une variable After et retourne un entier.

NB_SUCCESS

Nombre de lignes correctement traitées. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE

Message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Utilisation

Règle d'utilisation

Ce composant est généralement utilisé en tant que composant de début dans un Job ou un sous-job et nécessite un lien de sortie.

Récupérer des tâches depuis Talend Data Stewardship

Ce Job lit les tâches stockées sur le serveur de Talend Data Stewardship selon les critères définis dans la vue Basic settings des composants tDataStewardshipTaskInput.

Pour plus d'informations concernant Talend Data Stewardship, consultez la documentation de Talend Data Stewardship sur Talend Help Center https://help.talend.com (en anglais).

Créer un Job récupérant les tâches d'arbitrage

Créez un Job pour vous connecter au serveur de Talend Data Stewardship, récupérer les tâches d'un certain nombre de campagnes et les lister dans la console de log du Studio. Vous pouvez utiliser ce Job avec n'importe quel composant de sortie Talend pour écrire les tâches récupérées dans une application ou un système cible.

Les trois campagnes utilisées dans cet exemple sont :

  • Une campagne Arbitration, Beta Candidates, qui stocke les tâches des candidats pour un programme de bêta test,

  • Une campagne Resolution, Product Catalog, qui stocke les tâches de données des produits d'entreprise,

  • Une campagne Merging, CRM Data Deduplication, qui stocke les tâches des données clients récupérées du système CRM d'entreprise.

Prérequis :

  • Les campagnes desquelles vous souhaitez supprimer les tâches doivent déjà être définies dans Talend Data Stewardship et contenir des tâches.

  • Vous devez avoir un rôle assigné de Campaign Owner, dans Talend Administration Center, vous permettant d'accéder aux campagnes du serveur.

  1. Dans l'espace de modélisation graphique, commencez à saisir tDataStewardshipTaskInput et sélectionnez ce composant dans la liste qui s'affiche. Répétez l'opération pour ajouter trois composants tDataStewardshipTaskInput dans l'espace de modélisation graphique.

  2. Répétez l'opération pour ajouter trois composants tLogRow dans l'espace de modélisation graphique.

  3. Reliez les composants tDataStewardshipTaskInput aux composants tLogRow à l'aide de liens Row > Main.

  4. Reliez les composants tDataStewardshipTaskInput à l'aide de liens Trigger > OnSubjobOk.

Récupérer les tâches des campagnes d'arbitrage

Configurez les trois composants tDataStewardshipTaskInput pour récupérer les tâches d'une campagne Arbitration, d'une campagne Resolution et d'une campagne Merging définies sur le serveur.

  1. Double-cliquez sur le premier composant tDataStewardshipTaskInput pour ouvrir sa vue Basic settings.

  2. Dans le champ URL, saisissez l'adresse du serveur de Talend Data Stewardship avec le suffixe /data-stewardship/, par exemple http://localhost:8990/data-stewardship/.

    Dans cet exemple, toutes les informations de connexion sont définies comme des paramètres de contexte et sont centralisées dans le référentiel du Studio. Pour plus d'informations concernant les paramètres de contexte, consultez le Guide utilisateur du Studio Talend.

  3. Saisissez vos informations de connexion au serveur, dans les champs Username et Password.

    Pour saisir votre mot de passe, cliquez sur le bouton [...] à côté du champ Password, saisissez votre mot de passe entre guillemets doubles dans la boîte de dialogue qui s'ouvre et cliquez sur OK.

  4. Cliquez sur Find a campaign pour ouvrir une boîte de dialogue listant les campagnes sur le serveur, dont vous êtes le propriétaire, ou sur lesquelles vous avez les droits d'accès.

  5. Cochez la case Override enforcement of data model pour lire les tâches même si leur type de schéma ne correspond pas à ce qui a été défini sur le serveur de Talend Data Stewardship.

  6. Cliquez sur un en-tête de colonne pour trier la liste par ordre alphabétique, pour les colonnes de texte et par ordre chronologique, pour les colonnes de dates. Sélectionnez la campagne de laquelle récupérer les tâches, Beta Candidates pour le premier composant, puis cliquez sur OK.

    Les champs Campaign, Label et Type sont automatiquement renseignés avec les métadonnées de la campagne.

    Le schéma de la campagne sélectionnée est récupéré du serveur et est en lecture seule. Vous pouvez cliquer sur Edit Schema afin de l'afficher. Des colonnes supplémentaires sont ajoutées au schéma pour donner les métadonnées de la tâche.

  7. Filtrez les tâches que vous souhaitez récupérer de la campagne Beta Candidates comme suit :

    • Dans la liste State, choisissez de récupérer les tâches résolues.

    • Dans la liste Assignee, sélectionnez Any Assignee pour récupérer les tâches par critères de recherche assignées à tout participant d'une campagne.

    • Dans la liste Priority, sélectionnez Any priority afin de récupérer les tâches de tous niveaux de priorité.

    • Dans la liste Choice, sélectionnez No afin de récupérer les tâches des candidats n'ayant pas été acceptés pour le programme de bêta-test.

  8. Dans le champ Tag, saisissez le ou les mot(s)-clé(s) que vous souhaitez associer aux tâches. Utilisez une virgule afin de séparer les différents mots-clés.

    Vous pouvez utiliser les mots-clés pour filtrer les tâches à récupérer.

  9. Dans le champ Query, saisissez l'instruction de requête que vous souhaitez utiliser pour affiner le filtre défini dans les propriétés du composant, si nécessaire.

  10. Cliquez sur Advanced settings pour ouvrir la vue correspondante et :

    • configurez les nombre de tâches que vous souhaitez avoir dans chaque lot, dans le champ Batch Size.

    • laissez cochée la case Consume tasks when they are read afin de récupérer les tâches une seule fois.

  11. Double-cliquez sur les deux autres composants tDataStewardshipTaskInput et suivez les mêmes étapes afin de décider quelles tâches récupérer des campagnes Product Catalog et CRM Data Deduplication.

    Avec la campagne de type Merging CRM Data Deduplication, la case Retrieve only golden record est cochée par défaut, car seuls les enregistrements maître vous intéressent.

Lister les tâches récupérées du serveur dans la console du Studio

Configurez les composants tLogRow pour afficher dans la console du Studio Talend les tâches récupérées des campagnes Arbitration, Resolution et Merging.

  1. Double-cliquez sur chaque composant tLogRow pour ouvrir sa vue Basic settings.

  2. Dans la zone Mode, sélectionnez Table (print values in cells of a table) pour une lisibilité optimale des résultats.

Exécuter le Job pour récupérer les tâches des campagnes d'arbitrage

Une fois le Job et ses composants configurés, vous pouvez exécuter le Job afin de récupérer les tâches d'arbitrage et vérifier les résultats d'exécution.

  • Appuyez sur F6 afin de sauvegarder et exécuter le Job.

    Les tâches des trois campagnes sont récupérées selon les critères de filtre et affichées dans la console du Studio.

    Vous pouvez utiliser les composants de sortie Talend pour remplacer les composants tLogRow utilisés dans ce Job, pour écrire les tâches récupérées dans des applications ou systèmes cible.