tStewardshipTaskOutput - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du perspective soapUI mais vous pouvez l'utiliser uniquement si vous avez souscrit au produit Talend Platform correspondant.

Fonction

Le composant tStewardshipTaskOutput écrit des données, sous forme de tâches, dans la base de données de Talend Data Stewardship Console et permet ainsi de lister les tâches dans la console d'arbitrage des données. Un arbitre autorisé peut intervenir pour effectuer la mise en correspondance des données listées ou pour vérifier que les données sont cohérentes et complètes.

Note

Pour mieux comprendre le fonctionnement de ce composant, consultez le Guide utilisateur de Talend Data Stewardship Console.

Objectif

Ce composant crée des tâches dans la base de données de Talend Data Stewardship Console.

Configuration de l'URL pour accéder à Talend Data Stewardship Console

Lorsque vous utilisez des composants pour interagir avec Talend Data Stewardship Console, vous devez paramétrer correctement l'URL pour accéder à l'application :

  • pour interagir avec Talend Data Stewardship Console à l'aide de services SOAP, l'URL doit suivre le format <protocol>://<host>:<port>/<context>/services/TDSCWS?wsdl.

  • pour écrire des tâches dans Talend Data Stewardship Console, l'URL doit suivre le format <protocol>://<host>:<port>/<context>/services/dsctaskloader.

Notez que le paramètre <context> dans l'URL varie si Talend Data Stewardship Console est installé en standalone (installation standalone) ou avec un serveur MDM (installation embarquée).

Pour plus d'informations concernant l'installation de Talend Data Stewardship Console en application standalone, consultez le Guide utilisateur de Talend Data Stewardship Console.

Pour plus d'informations concernant l'installation du serveur MDM, consultez le Guide d'installation Talend.

Le tableau ci-dessous présente les paramètres par défaut de l'URL d'accès à Talend Data Stewardship Console pour les deux modes d'installation :

Paramètres par défaut

Installation Standalone

Installation embarquée

protocol

httphttp

host

localhostlocalhost

port

80808180

context

/org.talend.datastewardship/talendmdm

SOAP service URL

http://localhost:8080/org.talend.datastewardship/services/TDSCWS?wsdlhttp://localhost:8180/talendmdm/services/TDSCWS?wsdl

Task loader URL

http://localhost:8080/org.talend.datastewardship/services/dsctaskloaderhttp://localhost:8180/talendmdm/services/dsctaskloader

Propriétés du tStewardshipTaskOutput

Famille du composant

Talend MDM

 

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend .

 

Url

Saisissez l'URL pour accéder à l'application Talend Data Stewardship Console.

Pour plus d'informations concernant les paramètres de l'URL, consultez Configuration de l'URL pour accéder à Talend Data Stewardship Console.

 

Username et Password

Saisissez les informations d'authentification de l'utilisateur pour la base de données de la console d'arbitrage.

Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

 

Task name

Nommez la tâche que vous souhaitez lister dans Talend Data Stewardship Console.

 

Type

Si nécessaire, sélectionnez le type des tâches que vous souhaitez lire :

Resolution : les tâches de résolution de données représentent les résultats des processus de mise en correspondance des données effectués sur les données de différentes sources.

Data : les tâches d'intégrité de données sont les résultats des processus d'intégrité de données effectués sur les données.

Pour plus d'informations concernant les types de tâches et la gestion des tâches, consultez le Guide utilisateur de Talend Data Stewardship Console.

 

Created by

Saisissez le nom du créateur de la tâche.

Note

Les créateurs de tâches correspondent aux utilisateurs de Talend MDM Web User Interface. Pour plus d'informations, consultez le Guide utilisateur de Talend MDM Web User Interface.

 

Owner

Saisissez le nom du propriétaire de la tâche.

Note

Les propriétaires de tâches correspondent aux utilisateurs de Talend MDM Web User Interface. Pour plus d'informations, consultez le Guide utilisateur de Talend MDM Web User Interface.

 

Star

Saisissez le chiffre, entre 0 et 5, que vous souhaitez assigner aux tâches comme classement numérique, sous forme d'étoiles, mettant en valeur l'importance des tâches.

 

Tag

Saisissez le nom de la catégorie du tag que vous souhaitez associer aux tâches que vous voulez écrire.

Avertissement

Les catégories de tag doivent avoir été créées précédemment dans la console d'arbitrage. Pour plus d' informations concernant la création de catégories de tag, consultez le Guide utilisateur de Talend Data Stewardship Console.

Note

Tâches de résolution uniquement

Looping column

Sélectionnez une colonne dans le schéma d'entrée sur laquelle effectuer la boucle. Lorsque la valeur de la colonne sur laquelle est effectuée la boucle change, le composant ferme l'élément précédent (tâche) et en ouvre un nouveau (nouvelle tâche).

Note

La colonne sur laquelle est effectuée la boucle est généralement l'ID du groupe généré par le composant tMatchGroup. Pour plus d'informations, consultez tMatchGroup.

 

Source/Target selector

Sélectionnez une colonne dans le schéma d'entrée qui décidera si les enregistrements de tâches définis selon la colonne de boucle seront des enregistrements source ou cible.

 

Source

Sélectionnez une colonne dans le schéma d'entrée.

Note

Tâches de résolution uniquement

Score

Sélectionnez la colonne de score de correspondance dans le schéma d'entrée.

Note

Tâches de résolution uniquement

Weights

Sélectionnez la colonne définissant la distance de correspondance pour chaque colonne du schéma d'entrée.

 

Extra info

Si nécessaire, utilisez le bouton [+] pour ajouter une ou plusieurs ligne(s) pour toute information supplémentaire, que vous souhaitez ajouter à l'un des enregistrements source.

Dans la colonne Title, saisissez les informations clés.

Dans la colonne Message, saisissez les informations que vous souhaitez ajouter.

Dans la colonne Column, cliquez dans la ligne ajoutée et sélectionnez la colonne source à laquelle vous souhaitez ajouter l'information supplémentaire.

L'arbitre peut voir les informations ajoutées à chaque fois qu'il place sa souris sur la colonne d'enregistrement dans Talend Data Stewardship Console. Cette information lui permettra de prendre des décisions plus informées lors de la résolution de la tâche.

 

Record column

Utilisez le bouton [+] afin d'ajouter autant de lignes que nécessaire, puis cliquez dans chacune des lignes et sélectionnez les colonnes du schéma d'entrée qui formeront l'enregistrement cible.

 

Max tasks per commit

Saisissez le nombre maximal de tâches par commit.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

NB_LINE : nombre de lignes traitées. Cette variable est une variable After et retourne un entier.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant écrit des enregistrements des données contenus dans des tâches. Ce composant nécessite un flux d'entrée.

Si un Job contient de trop nombreuses tâches à gérer dans l'application Talend Data Stewardship Console, il est recommandé d'augmenter les valeurs des délais avant suspension, avant d'exécuter le Job.

Vous pouvez personnaliser les deux valeurs de délai avant suspension comme suit :

  • -Dtaskload_connect_timeout spécifie la valeur du délai avant suspension pour la connexion à l'application Talend Data Stewardship Console.

  • -Dtaskload_read_timeout spécifié la valeur du délai avant suspension pour lire dans l'application Talend Data Stewardship Console.

Par défaut, les valeurs sont 50 000 millisecondes.

Pour augmenter ces valeurs, procédez comme suit :

  1. Dans la vue Run, cliquez sur l'onglet Advanced settings.

  2. Dans la zone JVM Settings, cochez la case Use specific JVM arguments pour activer la table Argument.

  3. À côté de la table Argument, cliquez sur le bouton New... pour ouvrir la boîte de dialogue [Set the VM Argument].

  4. Dans la boîte de dialogue, saisissez la valeur du délai avant suspension, en millisecondes. Par exemple, -Dtaskload_connect_timeout=60000.

  5. Cliquez sur OK pour fermer la boîte de dialogue.

  6. Répétez les étapes ci-dessus pour paramétrer une autre valeur en millisecondes. Par exemple, -Dtaskload_read_timeout=60000.

    Pour plus d'informations concernant l'application d'un argument JVM pour toutes les exécutions de Jobs, consultez le Guide utilisateur du Studio Talend.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario : Écrire des enregistrements de données dans la base de données de la console d'arbitrage

Ce scénario décrit un Job à cinq composants générant des enregistrements de données sous forme de tâches et chargeant celles-ci dans la base de données de la console d'arbitrage.

Ces tâches nécessitent l'intervention d'un arbitre ayant l'autorisation de fusionner, de comparer, et de collecter les enregistrements de données contenus dans ces tâches. Pour plus d'informations, consultez le Guide utilisateur de Talend Data Stewardship Console.

Dans ce scénario :

  • Un composant tFixedFlowInput génère un flux de données d'entrée possédant cinq colonnes : Source, Firstname, Lastname, DOB (date of birth), et PostalCode (Source, prénom, nom, date de naissance et code postal). Ces données contiennent des problèmes telles que des doublons, des prénoms ou des noms mal écrits ou écrits différemment, des informations différentes pour le même client, etc.

  • Un composant de qualité de données, le tMatchGroup, effectue des opérations de mise en correspondance des données de différentes sources définies dans la colonne d'entrée Source. Ce composant regroupe les colonnes de sortie par une valeur de bloc, afin d'optimiser l'opération de mise en correspondance et de comparer uniquement les enregistrements ayant la même valeur de bloc, la colonne Source dans ce scénario. Pour plus d'informations concernant le regroupement des colonnes de sortie et l'utilisation de valeurs de bloc, consultez tMatchGroup.

  • Un composant tMap filtre le flux d'entrée et sépare les enregistrements de données uniques et les enregistrements de données ayant une distance de correspondance.

  • Les enregistrements de données uniques sont affichés dans la console de la vue Run, via le composant tLogRow. Tous les autres enregistrements de données, ayant une distance de correspondance sont envoyés dans la base de données de Talend Data Stewardship Console via le composant tStewardshipTaskOutput et affichés dans la console d'arbitrage. Un arbitre autorisé peut intervenir pour fusionner les enregistrements de données ayant des distances de correspondance.

Pour plus d'informations détaillées concernant des scénarios associés, consultez Scénario 1 : Générer des clés fonctionnelles dans le flux de sortie et Scénario 2 : Comparer les colonnes et regrouper dans le flux de sortie les enregistrements en doublon ayant la même clé fonctionnelle.

  • Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : tFixedFlowInput, tMatchGroup, tMap, tStewardshipTaskOutput et tLogRow.

  • Reliez les trois premiers composants à l'aide de liens Main.

  • Double-cliquez sur le tFixedFlowInput afin d'afficher sa vue Basic settings et de définir ses propriétés comme expliqué dans Scénario 1 : Générer des clés fonctionnelles dans le flux de sortie.

    Le composant tFixedFlowInput génère un flux de données d'entrée comprenant cinq colonnes : Source, Firstname, Lastname, DOB (date of birth), et PostalCode (Source, prénom, nom, date de naissance et code postal). Ces données contiennent des problèmes comme des doublons, des prénoms ou noms mal écrits ou écrits différemment, des informations différentes pour le même client, etc.

  • Double-cliquez sur le composant tMatchGroup afin d'afficher sa vue Basic settings et de définir ses propriétés.

  • Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.

  • Si nécessaire, cliquez sur le bouton Edit schema pour voir les schémas d'entrée et de sortie, et apporter des modifications au schéma de sortie.

Note

Le schéma de sortie de ce composant, comprend quatre colonnes standards de sortie en lecture seule. Pour plus d'informations, consultez Propriétés du tMatchGroup.

  • Dans le tableau Key definition, cliquez sur le bouton [+] pour ajouter à la liste les colonnes sur lesquelles vous souhaitez effectuer l'opération de mise en correspondance, FirstName et LastName dans ce scénario.

  • Cliquez dans la première et la deuxième cellules de la colonne Matching type et sélectionnez dans la liste la (les) méthode(s) à utiliser pour l'opération de mise en correspondance, Jaro-Winkler dans cet exemple.

  • Cliquez dans la première et la deuxième cellules de la colonne Confidence Weight et définissez les poids numériques pour chaque colonne utilisée comme attribut de clé.

  • Cliquez sur le bouton [+] sous le tableau Blocking Definition afin d'ajouter une ligne, puis cliquez dans la ligne et sélectionnez dans la liste la colonne que vous souhaitez utiliser comme valeur de bloc, Source dans cet exemple.

    Utiliser une valeur de bloc réduit le nombre de paires d'enregistrements nécessitant examen. Les données d'entrée sont partitionnées en blocs exhaustifs basés sur la source des données. Cela réduit le nombre de paires à comparer, puisque la comparaison est limitée aux paires d'enregistrements dans chaque bloc.

  • Double-cliquez sur le composant tMap afin d'ouvrir le Map Editor.

La zone d'entrée, à gauche, est déjà remplie par le schéma d'entrée provenant du composant précédent dans le Job.

  • Cliquez sur le bouton [+] en haut à droite de la zone de sortie, afin d'ajouter autant de tables que nécessaire, deux dans cet exemple : uniques et groups. La première table regroupera les enregistrements de données uniques, et la deuxième regroupera tous les enregistrements ayant une distance de correspondance, dans l'enregistrement maître de chaque groupe.

  • Déposez les colonnes d'entrée afin de remplir le premier schéma de sortie. Pour plus d'informations concernant le mapping des données, consultez le Guide utilisateur du Studio Talend.

    Toutes les colonnes seront automatiquement remplies dans le Schema Editor, dans la moitié inférieure du Map Editor.

  • Cliquez sur le bouton dans le coin supérieur droit de la première table de sortie afin d'ajouter une condition pour filtrer les données dans cette table : row2.GRP_SIZE == 1.

  • Déposez les colonnes d'entrée pour remplir le deuxième schéma de sortie et ajoutez le filtre suivant : row2.GRP_SIZE > 1 || !row2.MASTER.

  • Dans le Schema Editor de la deuxième table de sortie, cliquez sur le bouton [+] afin d'ajouter deux colonnes supplémentaires : weight et istarget. La première mesurera la distance de correspondance et la seconde décidera si l'enregistrement est un enregistrement source ou cible.

  • Cliquez sur Ok pour fermer le Map Editor.

  • Dans l'espace de modélisation graphique, cliquez-droit sur le tMap et sélectionnez le lien uniques, et reliez-le au composant tLogRow. Connectez de la même manière le tMap au tStewardshipTaskOutput avec le lien groups.

  • Double-cliquez sur le composant tStewardshipTaskOutput afin d'afficher sa vue Basic settings et de définir ses propriétés.

  • Dans la liste Schema, sélectionnez Built-In puis cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir une boîte de dialogue.

Les données sont collectées des colonnes définies dans la table de sortie groups dans le composant tMap.

  • Cliquez sur OK afin de fermer la boîte de dialogue et passer à l'étape suivante.

  • Dans le champ Url, saisissez l'URL de connexion à la base de données de la console d'arbitrage.

  • Dans les champs Username et Password, saisissez votre identifiant et votre mot de passe de connexion au serveur MDM.

  • Dans le champ Task name, saisissez un nom fonctionnel pour la tâche que vous souhaitez lister dans Talend Data Stewardship Console.

  • Dans la liste Type, sélectionnez le type des tâches que vous souhaitez écrire dans la console d'arbitrage : Resolution ou Data. Dans cet exemple, seules les tâches de résolution sont à écrire.

    Pour plus d'informations concernant les types de tâches, consultez le Guide utilisateur de Talend Data Stewardship Console.

  • Dans le champ Created by, saisissez entre guillemets le nom du créateur de la tâche, Administrator dans cet exemple. Le créateur de la tâche correspond à l'utilisateur de Talend MDM Web User Interface. Pour plus d'informations, consultez le Guide utilisateur de Talend MDM Web User Interface.

  • Dans le champ Owner, saisissez entre guillemets le nom du propriétaire de la tâche, c'est-à-dire l'utilisateur auquel la tâche est assignée, Administrator dans cet exemple.

Note

Une tâche peut être assignée à un utilisateur spécifique, soit à partir de la vue Basic settings du composant tStewardshipTaskOutput, soit directement à partir de la console d'arbitrage par un administrateur. Pour plus d'informations, consultez tStewardshipTaskOutput et le Guide utilisateur de Talend Data Stewardship Console.

  • Dans le champ Star, saisissez entre guillemets le nombre d'étoiles, de 0 à 5, que vous souhaitez assigner à la tâche dans la console d'arbitrage afin de souligner son importance.

  • Dans le champ Tags, saisissez entre guillemets le nom de la catégorie du tag associé aux tâches que vous souhaitez lire. Ce champ n'est pas utilisé dans ce scénario.

    Pour plus d'informations, consultez le Guide utilisateur de Talend Data Stewardship Console.

  • Dans la liste Looping column, sélectionnez une colonne du schéma d'entrée sur laquelle effectuer la boucle, GID dans cet exemple.

  • Dans la liste Source/Target selector, sélectionnez la colonne qui décidera si l'enregistrement est un enregistrement source ou cible.

  • Dans la liste Source, sélectionnez une colonne source dans le schéma d'entrée.

  • Dans la liste Score, sélectionnez la colonne du score de correspondance dans le schéma d'entrée.

  • Dans la liste Weights, sélectionnez la colonne définissant la distance de correspondance pour les colonnes d'entrée.

  • Dans le tableau Extra info, cliquez sur le bouton pour ajouter une ou plusieurs ligne(s) que vous pouvez utiliser afin d'ajouter des informations supplémentaires dans une ou plusieurs colonne(s) d'enregistrements de la tâche créée.

Note

Vous pouvez cliquer sur le bouton afin d'ajouter votre schéma d'entrée complet en une seule fois, sans avoir à le faire ligne par ligne.

  • Dans la colonne Title, saisissez entre guillemets le rôle de la personne qui ajoute les informations.

  • Dans la colonne Info, saisissez entre guillemets les informations supplémentaires que vous souhaitez attacher à la colonne sélectionnée.

  • Cliquez sur la ligne Scope puis sélectionnez dans la liste la colonne d'enregistrement sur laquelle vous souhaitez ajouter les informations supplémentaires, PostalCode dans ce scénario.

    Cela aura pour effet d'ajouter une marque rouge à la colonne PostalCode au moment d'ouvrir la tâche correspondante dans Talend Data Stewardship Console.

Lorsque l'arbitre place son curseur sur cette marque, les informations attachées apparaissent. Celles-ci peuvent l'aider à collecter les enregistrements de données.

  • Dans le tableau Record Column, cliquez sur le bouton afin d'ajouter autant de lignes que vous souhaitez afficher dans chaque tâche dans Talend Data Stewardship Console.

  • Cliquez dans chacune des lignes et sélectionnez la colonne que vous souhaitez afficher dans chaque tâche. Dans cet exemple, chaque tâche doit avoir quatre colonnes : Firstname, Lastname, PostalCode et DOB.

Note

Vous pouvez cliquer sur le bouton afin d'ajouter votre schéma d'entrée complet en une seule fois, sans avoir à le faire ligne par ligne.

  • Double-cliquez sur le composant tLogRow afin d'afficher sa vue Basic settings et définir ses propriétés.

  • Sauvegarder votre Job et appuyez sur F6 pour l'exécuter.

La console de la vue Run affiche les quatre colonnes uniques du flux d'entrée.

L'identifiant pour chaque groupe (tâche) est affiché dans la colonne GID à côté de l'enregistrement correspondant. Le nombre d'enregistrements dans chacune des tâches est listé dans la colonne GRP_SIZE et calculé uniquement sur l'enregistrement maître. La colonne MASTER indique par la valeur true que l'enregistrement correspondant est un enregistrement maître. La colonne SCORE affiche la distance calculée entre l'enregistrement d'entrée et l'enregistrement maître selon l'algorithme de correspondance Jaro-Winkler.

Tous les autres enregistrements d'entrée ayant une distance de correspondance sont listés dans Talend Data Stewardship Console, en attendant qu'un arbitre fusionne, compare et collecte les enregistrements de données.