Scénario : Écrire des enregistrements de données dans la base de données de la console d'arbitrage - 6.5

Data Stewardship Console

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Data Fabric
Talend MDM Platform
task
Création et développement > Systèmes tiers > Composants MDM > Composants Data Stewardship Console
Gouvernance de données > Systèmes tiers > Composants MDM > Composants Data Stewardship Console
Qualité et préparation de données > Systèmes tiers > Composants MDM > Composants Data Stewardship Console
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux produits Talend Platform avec MDM et Talend Data Fabric nécessitant souscription.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Ce scénario décrit un Job à cinq composants générant des enregistrements de données sous forme de tâches et chargeant celles-ci dans la base de données de la console d'arbitrage.

Ces tâches nécessitent l'intervention d'un arbitre ayant l'autorisation de fusionner, de comparer, et de collecter les enregistrements de données contenus dans ces tâches. Pour plus d'informations, consultez le Guide utilisateur de Talend Data Stewardship Console .

Dans ce scénario :

  • Un composant tFixedFlowInput génère un flux de données d'entrée possédant cinq colonnes : Source, Firstname, Lastname, DOB (date of birth), et PostalCode (Source, prénom, nom, date de naissance et code postal). Ces données contiennent des problèmes telles que des doublons, des prénoms ou des noms mal écrits ou écrits différemment, des informations différentes pour le même client, etc.

  • Un composant de qualité de données, le tMatchGroup, effectue des opérations de mise en correspondance des données de différentes sources définies dans la colonne d'entrée Source. Ce composant regroupe les colonnes de sortie par une valeur de bloc, afin d'optimiser l'opération de mise en correspondance et de comparer uniquement les enregistrements ayant la même valeur de bloc, la colonne Source dans ce scénario. Pour plus d'informations concernant le regroupement des colonnes de sortie et l'utilisation de valeurs de bloc, consultez tMatchGroup.

  • Un composant tMap filtre le flux d'entrée et sépare les enregistrements de données uniques et les enregistrements de données ayant une distance de correspondance.

  • Les enregistrements de données uniques sont affichés dans la console de la vue Run, via le composant tLogRow. Tous les autres enregistrements de données, ayant une distance de correspondance sont envoyés dans la base de données de Talend Data Stewardship Console via le composant tStewardshipTaskOutput et affichés dans la console d'arbitrage. Un arbitre autorisé peut intervenir pour fusionner les enregistrements de données ayant des distances de correspondance.

Pour plus d'informations détaillées concernant des scénarios associés, consultez Générer des clés fonctionnelles dans le flux de sortie et Comparer les colonnes et regrouper dans le flux de sortie les enregistrements en doublon ayant la même clé fonctionnelle.

  • Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : tFixedFlowInput, tMatchGroup, tMap, tStewardshipTaskOutput et tLogRow.

  • Reliez les trois premiers composants à l'aide de liens Main.

  • Double-cliquez sur le tFixedFlowInput afin d'afficher sa vue Basic settings et de définir ses propriétés comme expliqué dans Générer des clés fonctionnelles dans le flux de sortie.

    Le composant tFixedFlowInput génère un flux de données d'entrée comprenant cinq colonnes : Source, Firstname, Lastname, DOB (date of birth), et PostalCode (Source, prénom, nom, date de naissance et code postal). Ces données contiennent des problèmes comme des doublons, des prénoms ou noms mal écrits ou écrits différemment, des informations différentes pour le même client, etc.

  • Double-cliquez sur le composant tMatchGroup afin d'afficher sa vue Basic settings et de définir ses propriétés.

  • Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.

  • Si nécessaire, cliquez sur le bouton Edit schema pour voir les schémas d'entrée et de sortie, et apporter des modifications au schéma de sortie.

Remarque :

Le schéma de sortie de ce composant, comprend quatre colonnes standards de sortie en lecture seule. Pour plus d'informations, consultez Propriétés du tMatchGroup Standard.

  • Dans le tableau Key definition, cliquez sur le bouton [+] pour ajouter à la liste les colonnes sur lesquelles vous souhaitez effectuer l'opération de mise en correspondance, FirstName et LastName dans ce scénario.

  • Cliquez dans la première et la deuxième cellules de la colonne Matching type et sélectionnez dans la liste la (les) méthode(s) à utiliser pour l'opération de mise en correspondance, Jaro-Winkler dans cet exemple.

  • Cliquez dans la première et la deuxième cellules de la colonne Confidence Weight et définissez les poids numériques pour chaque colonne utilisée comme attribut de clé.

  • Cliquez sur le bouton [+] sous le tableau Blocking Definition afin d'ajouter une ligne, puis cliquez dans la ligne et sélectionnez dans la liste la colonne que vous souhaitez utiliser comme valeur de bloc, Source dans cet exemple.

    Utiliser une valeur de bloc réduit le nombre de paires d'enregistrements nécessitant examen. Les données d'entrée sont partitionnées en blocs exhaustifs basés sur la source des données. Cela réduit le nombre de paires à comparer, puisque la comparaison est limitée aux paires d'enregistrements dans chaque bloc.

  • Double-cliquez sur le composant tMap afin d'ouvrir le Map Editor.

La zone d'entrée, à gauche, est déjà remplie par le schéma d'entrée provenant du composant précédent dans le Job.

  • Cliquez sur le bouton [+] en haut à droite de la zone de sortie, afin d'ajouter autant de tables que nécessaire, deux dans cet exemple : uniques et groups. La première table regroupera les enregistrements de données uniques, et la deuxième regroupera tous les enregistrements ayant une distance de correspondance, dans l'enregistrement maître de chaque groupe.

  • Déposez les colonnes d'entrée afin de remplir le premier schéma de sortie. Pour plus d'informations concernant le mapping des données, consultez le Guide utilisateur du Studio Talend .

    Toutes les colonnes seront automatiquement remplies dans le Schema Editor, dans la moitié inférieure du Map Editor.

  • Cliquez sur le bouton dans le coin supérieur droit de la première table de sortie afin d'ajouter une condition pour filtrer les données dans cette table : row2.GRP_SIZE == 1.

  • Déposez les colonnes d'entrée pour remplir le deuxième schéma de sortie et ajoutez le filtre suivant : row2.GRP_SIZE > 1 || !row2.MASTER.

  • Dans le Schema Editor de la deuxième table de sortie, cliquez sur le bouton [+] afin d'ajouter deux colonnes supplémentaires : weight et istarget. La première mesurera la distance de correspondance et la seconde décidera si l'enregistrement est un enregistrement source ou cible.

  • Cliquez sur Ok pour fermer le Map Editor.

  • Dans l'espace de modélisation graphique, cliquez-droit sur le tMap et sélectionnez le lien uniques, et reliez-le au composant tLogRow. Connectez de la même manière le tMap au tStewardshipTaskOutput avec le lien groups.

  • Double-cliquez sur le composant tStewardshipTaskOutput afin d'afficher sa vue Basic settings et de définir ses propriétés.

  • Dans la liste Schema, sélectionnez Built-In puis cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir une boîte de dialogue.

Les données sont collectées des colonnes définies dans la table de sortie groups dans le composant tMap.

  • Cliquez sur OK afin de fermer la boîte de dialogue et passer à l'étape suivante.

  • Dans le champ Url, saisissez l'URL de connexion à la base de données de la console d'arbitrage.

  • Dans les champs Username et Password, saisissez votre identifiant et votre mot de passe de connexion au serveur MDM.

  • Dans le champ Task name, saisissez un nom fonctionnel pour la tâche que vous souhaitez lister dans Talend Data Stewardship Console .

  • Dans la liste Type, sélectionnez le type des tâches que vous souhaitez écrire dans la console d'arbitrage : Resolution ou Data. Dans cet exemple, seules les tâches de résolution sont à écrire.

    Pour plus d'informations concernant les types de tâches, consultez le Guide utilisateur de Talend Data Stewardship Console .

  • Dans le champ Created by, saisissez entre guillemets le nom du créateur de la tâche, Administrator dans cet exemple. Le créateur de la tâche correspond à l'utilisateur de Talend MDM Web UI . Pour plus d'informations, consultez le Guide utilisateur de Talend MDM Web UI .

  • Dans le champ Owner, saisissez entre guillemets le nom du propriétaire de la tâche, c'est-à-dire l'utilisateur auquel la tâche est assignée, Administrator dans cet exemple.

Remarque :

Une tâche peut être assignée à un utilisateur spécifique, soit à partir de la vue Basic settings du composant tStewardshipTaskOutput, soit directement à partir de la console d'arbitrage par un administrateur. Pour plus d'informations, consultez tStewardshipTaskOutput et le Guide utilisateur de Talend Data Stewardship Console .

  • Dans le champ Star, saisissez entre guillemets le nombre d'étoiles, de 0 à 5, que vous souhaitez assigner à la tâche dans la console d'arbitrage afin de souligner son importance.

  • Dans le champ Tags, saisissez entre guillemets le nom de la catégorie du tag associé aux tâches que vous souhaitez lire. Ce champ n'est pas utilisé dans ce scénario.

    Pour plus d'informations, consultez le Guide utilisateur de Talend Data Stewardship Console .

  • Dans la liste Looping column, sélectionnez une colonne du schéma d'entrée sur laquelle effectuer la boucle, GID dans cet exemple.

  • Dans la liste Source/Target selector, sélectionnez la colonne qui décidera si l'enregistrement est un enregistrement source ou cible.

  • Dans la liste Source, sélectionnez une colonne source dans le schéma d'entrée.

  • Dans la liste Score, sélectionnez la colonne du score de correspondance dans le schéma d'entrée.

  • Dans la liste Weights, sélectionnez la colonne définissant la distance de correspondance pour les colonnes d'entrée.

  • Dans le tableau Extra info, cliquez sur le bouton pour ajouter une ou plusieurs ligne(s) que vous pouvez utiliser afin d'ajouter des informations supplémentaires dans une ou plusieurs colonne(s) d'enregistrements de la tâche créée.

Remarque :

Vous pouvez cliquer sur le bouton afin d'ajouter votre schéma d'entrée complet en une seule fois, sans avoir à le faire ligne par ligne.

  • Dans la colonne Title, saisissez entre guillemets le rôle de la personne qui ajoute les informations.

  • Dans la colonne Info, saisissez entre guillemets les informations supplémentaires que vous souhaitez attacher à la colonne sélectionnée.

  • Cliquez sur la ligne Scope puis sélectionnez dans la liste la colonne d'enregistrement sur laquelle vous souhaitez ajouter les informations supplémentaires, PostalCode dans ce scénario.

    Cela aura pour effet d'ajouter une marque rouge à la colonne PostalCode au moment d'ouvrir la tâche correspondante dans Talend Data Stewardship Console .

Lorsque l'arbitre place son curseur sur cette marque, les informations attachées apparaissent. Celles-ci peuvent l'aider à collecter les enregistrements de données.

  • Dans le tableau Record Column, cliquez sur le bouton afin d'ajouter autant de lignes que vous souhaitez afficher dans chaque tâche dans Talend Data Stewardship Console .

  • Cliquez dans chacune des lignes et sélectionnez la colonne que vous souhaitez afficher dans chaque tâche. Dans cet exemple, chaque tâche doit avoir quatre colonnes : Firstname, Lastname, PostalCode et DOB.

Remarque :

Vous pouvez cliquer sur le bouton afin d'ajouter votre schéma d'entrée complet en une seule fois, sans avoir à le faire ligne par ligne.

  • Double-cliquez sur le composant tLogRow afin d'afficher sa vue Basic settings et définir ses propriétés.

  • Sauvegarder votre Job et appuyez sur F6 pour l'exécuter.

La console de la vue Run affiche les quatre colonnes uniques du flux d'entrée.

L'identifiant pour chaque groupe (tâche) est affiché dans la colonne GID à côté de l'enregistrement correspondant. Le nombre d'enregistrements dans chacune des tâches est listé dans la colonne GRP_SIZE et calculé uniquement sur l'enregistrement maître. La colonne MASTER indique par la valeur true que l'enregistrement correspondant est un enregistrement maître. La colonne SCORE affiche la distance calculée entre l'enregistrement d'entrée et l'enregistrement maître selon l'algorithme de correspondance Jaro-Winkler.

Tous les autres enregistrements d'entrée ayant une distance de correspondance sont listés dans Talend Data Stewardship Console , en attendant qu'un arbitre fusionne, compare et collecte les enregistrements de données.