Propriétés du tMatchGroup Standard - 7.3

Rapprochement de données à l'aide des outils Talend

Version
7.3
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Ces propriétés sont utilisées pour configurer le tMatchGroup s'exécutant dans le framework de Jobs Standard.

Le composant tMatchGroup Standard appartient à la famille Qualité de données.

Le composant de ce framework est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform et dans Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

Le schéma de sortie de ce composant contient les champs suivants en lecture seule :

GID : fournit l'identifiant du groupe du type de données String.
Remarque : Dans les Jobs migrés depuis les versions précédentes dans votre version actuelle du Studio Talend, l'identifiant de groupe peut être de type Long. Si vous souhaitez avoir un identifiant de groupe de type String, remplacez les composants tMatchGroup dans les Jobs migrés par des composants tMatchGroup , depuis la Palette.

- GRP_SIZE : compte le nombre d'enregistrements dans le groupe, ce nombre est calculé uniquement sur l'enregistrement maître.

- MASTER : identifie, par true ou false, l'enregistrement utilisé dans les comparaisons de correspondance comme enregistrement maître. Il y a au moins un enregistrement maître par groupe.

Chaque enregistrement d'entrée est comparé à l'enregistrement maître.

- SCORE : mesure la distance entre l'enregistrement d'entrée et l'enregistrement maître selon l'algorithme de correspondance utilisé.

Si le tMatchGroup est utilisé afin d'avoir plusieurs flux de sortie, le score dans cette colonne décide du groupe de sortie dans lequel va l'enregistrement.

- GRP_QUALITY dépends de Matching Algorithm :
  • Simple VSR : GRP_QUALITY fournit la qualité des similarités dans le groupe en prenant la valeur de correspondance minimale. Seul l'enregistrement maître possède un score de qualité.
  • T-Swoosh : GRP_QUALITY fournit la qualité des similarités dans le groupe en prenant la valeur de correspondance minimale parmi toutes les paires d'enregistrements du groupe. Seul l'enregistrement maître possède un score de qualité.
- MERGED_RECORD : cette colonne de sortie est disponible uniquement :
  • lorsque vous avez plusieurs composants tMatchGroup dans le Job et
  • lorsque l'algorithme T-Swoosh est sélectionné.

Cette colonne indique, par true ou false, si l'enregistrement est, respectivement, un enregistrement maître ou non, durant la première passe.

 

Built-in : le schéma est créé et conservé localement pour ce composant seulement.

 

Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.

Matching Algorithm

Sélectionnez dans la liste l'algorithme que vous souhaitez utiliser dans le composant : Simple VSR ou T-Swoosh.

Cliquez sur l'icône d'import pour importer une règle de rapprochement depuis le référentiel du Studio.

Dans l'assistant Match Rule Selector, importez une règle de rapprochement utilisant le même algorithme que celui sélectionné dans les paramètre simples du composant. Dans le cas contraire, le Job s'exécute avec les valeurs par défaut des paramètres n'étant pas compatibles avec les algorithmes Simple VSR et t-Swoosh.

Pour plus d'informations concernant l'import de règles, consultez Import de règles de mise en correspondance depuis le référentiel du Studio.

Key Definition

Input key attribute

Sélectionnez la (les) colonne(s) du flux d'entrée sur laquelle (lesquelles) appliquer un algorithme de rapprochement.

Remarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.

Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.

 

Matching Function

Sélectionnez l'algorithme de correspondance dans la liste :

Exact : met en correspondance chaque entrée traitée à toutes les entrées possibles de référence qui ont exactement la même valeur. Retourne 1 lorsque les deux chaînes de caractères, sinon, retourne 0.

Exact - ignore case : met en correspondance chaque entrée traitée à toutes les entrées de référence possibles ayant les mêmes valeurs, en ignorant la valeur de la casse.

Soundex : met en correspondance les entrées traitées selon l'algorithme de prononciation britannique. Indexe les chaînes de caractères par son, selon la prononciation anglaise. Par exemple "Hello": "H400".Les caractères chinois ne sont pas supportés.

Levenshtein (distance d'édition) : calcule le nombre minimal de modifications (insertions, suppressions ou substitutions) nécessaires à la transformation d'une chaîne de caractères en une autre. Lorsque vous utilisez cet algorithme dans le composant tMatchGroup, il n'est pas nécessaire de spécifier une distance maximale. Le composant calcule automatiquement un pourcentage de correspondance, basé sur la distance. Ce score de correspondance sera utilisé afin de calculer la correspondance globale, selon le score assigné dans le champ Confidence Weight.

Metaphone : cette option se base sur un algorithme phonétique afin d'indexer les entrées selon leur prononciation. Elle charge d'abord la phonétique de toutes les entrées du flux lookup de référence, puis vérifie toutes les entrées du flux principal par rapport aux entrées du flux de référence. Les caractères chinois ne sont pas supportés.

Double Metaphone : nouvelle version de l'algorithme phonétique Métaphone, qui produit des résultats plus précis que l'algorithme originel. Il peut retourner un code primaire et un code secondaire pour une chaîne de caractères. Cela est utile dans des cas ambigus, mais également pour de multiples variantes de noms de famille aux origines communes. Les caractères chinois ne sont pas supportés.

Soundex FR : met en correspondance les entrées traitées selon un algorithme phonétique de prononciation française standard.Les caractères chinois ne sont pas supportés.

Jaro : met en correspondance les entrées traitées selon des erreurs d'orthographe. Il compte le nombre de caractères correspondants entre deux chaînes de caractères. Plus la distance est grande, plus les chaînes sont semblables.

Jaro-Winkler : variante de Jaro, donnant plus d'importance au début de la chaîne de caractères.

Fingerprint key : met en correspondance des entrées après avoir effectué le processus séquentiel suivant :
  1. suppression des espaces blancs en début et fin de champ,
  2. passage de tous les caractères en minuscules, Les caractères chinois ne sont pas supportés.
  3. suppression de toute la ponctuation et de tous les caractères de contrôle,
  4. division de la chaîne de caractères en jetons séparés par des espaces blancs,
  5. tri des jetons et suppression des doublons,
  6. fusion des jetons, Comme les morceaux des chaînes de caractères sont triés, l'ordre donné des jetons n'importe pas. Cruise, Tom et Tom Cruise obtiennent finalement l'empreinte (clé) cruise tom et terminent dans le même cluster.
  7. normalisation des caractères occidentaux étendus par leur représentation ASCII, par exemple gödel par godel. Cela reproduit les erreurs des entrées de données effectuées lors de la saisie de caractères étendus avec un clavier ASCII. Cependant, cette procédure peut amener à de faux positifs, par exemple gödel et godél obtiennent godel comme empreinte mais ce sont probablement des noms différents. Cela peut manquer d'efficacité pour des jeux de données dans lesquels des caractères étendus jouent un rôle de différenciation important.

q-grams : met en correspondance les entrées traitées en divisant les chaînes de caractères en blocs de lettres de longueur q, afin de créer un nombre de longueurs q-grammes. Le résultat de correspondance est donné comme le nombre de correspondances entre les q-grammes d'entrée et de référence, divisé par le nombre de q-grammes possibles.

Hamming : calcule le nombre minimal de substitutions requises pour transformer une chaîne de caractères en une autre de la même longueur. Par exemple, la distance de Hamming entre "masking" et "pairing" est égale à 3.

custom... : permet de charger un algorithme externe de mise en correspondance à partir d'une bibliothèque Java via la colonne Custom Matcher.

Pour plus d'informations concernant le chargement d'une bibliothèque Java externe, consultez tLibraryLoad.

Pour plus d'informations concernant la création d'un algorithme de correspondance personnalisé, consultez Créer un algorithme de correspondance personnalisé.

Pour un scénario associé concernant l'utilisation d'un algorithme de correspondance personnalisé, consultez Utiliser un algorithme de mise en correspondance personnalisé pour faire correspondre des entrées.

Custom Matcher

Lorsque vous sélectionnez Custom comme type de correspondance, saisissez le chemin d'accès à la classe personnalisée (algorithme externe de mise en correspondance) à utiliser. Ce chemin d'accès est défini par vos soins dans le fichier de la bibliothèque (fichier .jar), que vous pouvez importer à l'aide du composant tLibraryLoad.

Par exemple, pour utiliser une classe MyDistance.class stockée dans le répertoire org/talend/mydistance dans une bibliothèque définie par l'utilisateur ou l'utilisatrice mydistance.jar, le chemin d'accès à saisir est org.talend.mydistance.MyDistance.

 

Tokenized measure

La segmentation (tokenization) est le concept de diviser une chaîne de caractères en mots. Sélectionnez la méthode à utiliser pour calculer une mesure segmentée pour l'algorithme sélectionné :

NO : aucune méthode de segmentation n'est utilisée sur la chaîne de caractères. Avec cette option, "John Doe" et "Jon Doe" doivent correspondre.

Same place : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2. Associe chaque élément de la première liste à l'élément à la même position dans la seconde liste. Avec cette méthode, "She is red and he is pink" et "Catherine is red and he is pink" doivent correspondre.

Same order : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2 et suppose que la première liste est plus courte que la seconde. Essaye d'associer les éléments de la première liste aux éléments de la seconde, pris dans le même ordre. Avec cette méthode, "John Doe" et "John B. Doe" correspondent.

Cette méthode doit être utilisée uniquement avec des chaînes de caractères contenant peu de mots, sinon, le nombre de combinaisons possible peut être vraiment important.

Any order : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2 et suppose que la première liste est plus courte que la seconde. Tente d'attribuer chaque mot de la première liste à un mot de la seconde, pour une similarité globale la plus élevée possible.

Avec cette méthode, "John Doe" et "Doe John" correspondent.

 

Threshold

Cette colonne s'affiche lorsque vous sélectionnez T-Swoosh comme algorithme de rapprochement.

Deux enregistrements de données correspondent lorsque la probabilité est supérieure ou égale à la valeur définie.

Configurez un seuil entre 0 et 1. Vous pouvez saisir jusqu'à six décimales.

0 signifie que la similarité entre les valeurs dans la colonne n'est pas mesurée. 1 signifie que vous souhaitez que les valeurs comparées de la colonne soient des correspondances exactes. La valeur par défaut est 1.

 

Confidence Weight

Définissez un poids numérique pour chaque attribut (colonne) de la définition de clé.

Vous pouvez saisir un nombre ou une variable de contexte.

La valeur doit être un entier supérieur à 0.

Handle Null

Pour gérer des valeurs Null, sélectionnez dans la liste l'opérateur à utiliser sur la colonne :

Null Match Null : un attribut Null correspond à un autre attribut Null uniquement.

Null Match None signifie : qu'un attribut Null ne correspond jamais à un autre attribut.

Null Match All : un attribut Null correspond à n'importe quelle autre valeur d'un attribut.

Par exemple, dans deux colonnes name et firstname pour lesquelles le nom n'est jamais null, le prénom peut être null.

Si vous avez deux enregistrements :

"Doe", "John"

"Doe", ""

Selon l'opérateur sélectionné, ces deux enregistrements peuvent correspondre ou ne pas correspondre :

Null Match Null : ne correspondent pas.

Null Match None : ne correspondent pas.

Null Match All : correspondent.

Pour les enregistrements :

"Doe", ""

"Doe", ""

Null Match Null : correspondent.

Null Match None : ne correspondent pas.

Null Match All : correspondent.

 

Survivorship Function (disponible uniquement lorsque l'algorithme T-Swoosh est sélectionné) : Sélectionnez la façon dont deux enregistrements similaires sont fusionnés, à partir de la liste déroulante.

  • Concatenate : cette fonction ajoute le contenu du premier enregistrement au contenu du deuxième enregistrement. Par exemple, le résultat de la fusion entre Bill et William sera BillWilliam. Dans le champ Parameter, vous pouvez définir le séparateur à utiliser pour séparer les valeurs.
  • Prefer True (for booleans) : cette fonction définit toujours les valeurs booléennes à True (vrai) dans l'enregistrement fusionné, sauf si toutes les valeurs booléennes dans les enregistrements source sont définis à False (faux).
  • Prefer False (for booleans) : cette fonction définit toujours les valeurs booléennes à False (faux) dans l'enregistrement fusionné, sauf si toutes les valeurs booléennes dans les enregistrements source sont définis à True (vrai).
  • Most common : cette fonction valide la valeur du champ la plus fréquente dans chaque groupe de doublons.
  • Most recent : cette fonction valide la date la plus récente dans chaque groupe de doublons. Si plus d'un type de date est défini dans le schéma, sélectionnez une colonne dans Reference column. Si aucun type de date n'est défini dans le schéma, les données sont triées par date de chargement la plus récente.
  • Most ancient : cette fonction valide la date la plus ancienne dans chaque groupe de doublons. Si plus d'un type de date est défini dans le schéma, sélectionnez une colonne dans Reference column. Si aucun type de date n'est défini dans le schéma, les données sont triées par date de chargement la plus ancienne.
  • Longest (for strings) : cette fonction valide la valeur du champ la plus longue dans chaque groupe de doublons.
  • Shortest (for strings) : cette fonction valide la valeur du champ la plus courte dans chaque groupe de doublons.
  • Largest (for numbers) : cette fonction valide la valeur numérique la plus grande la plus courte dans chaque groupe de doublons.
  • Smallest (for numbers) : cette fonction valide la valeur numérique la plus petite la plus courte dans chaque groupe de doublons.
  • Most trusted source : cette fonction prend les données source qui ont été définies comme étant les plus fiables. La source données la plus fiable est définie dans le champ Parameter. Cette fonction est uniquement utilisée dans le contexte du rapprochement intégré dans la solution Talend MDM.
  Reference column

Si vous configurez Survivor Function à Most recent ou Most ancient, cette colonne est utilisée pour sélectionner la colonne de référence.

  Parameter

Si vous configurez Survivorship Function à Most trusted source, cet élément est utilisé pour configurer le nom de la source de données à utiliser comme base pour l'enregistrement maître.

Si vous configurez Survivorship Function à Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

Match Threshold

Saisissez la probabilité de correspondance. Deux enregistrements de données correspondent lorsque la probabilité est supérieure ou égale à la valeur définie.

Vous pouvez saisir un seuil de correspondance différent pour chaque règle de rapprochement.

Survivorship Rules For Columns (disponible uniquement lorsque l'algorithme T-Swoosh est sélectionné)

Input Column : sélectionnez la (les) colonne(s) de flux d'entrée sur laquelle (lesquelles) vous souhaitez appliquer une fonction de consolidation.

Survivorship Function : sélectionne la façon dont deux enregistrements similaires seront fusionnées, à partir de la liste déroulante.

Default Survivorship Rules

(disponible uniquement lorsque l'algorithme T-Swoosh est sélectionné)

Data Type : sélectionnez le(s) type(s) de données de flux d'entrée sur laquelle (lesquelles) vous souhaitez appliquer une fonction de consolidation.

Survivorship Function : sélectionne la façon dont deux enregistrements similaires seront fusionnées, à partir de la liste déroulante.

Sélection des blocs

Colonne d'entrée

Au besoin, sélectionnez la (les) colonne(s) de flux d'entrée selon laquelle (lesquelles) vous souhaitez partitionner les données traitées en blocs, ce qui est habituellement appelé "blocking".

La création de blocs (ou de groupes) réduit le nombre de paires d'enregistrements nécessitant examen. Lors de la création de blocs, les données d'entrée sont partitionnées en blocs exhaustifs créés pour augmenter la proportion de correspondances observées lors de la réduction du nombre de paires à comparer. Les comparaisons sont limitées aux paires d'enregistrements dans chaque bloc.

Utiliser des colonnes de bloc est très utile lorsque vous traitez des données très volumineuses.

Advanced settings

Store on disk

Cochez la case Store on disk si vous souhaitez stocker les blocs de données traitées sur le disque, afin d'optimiser les performances de votre système.

Max buffer size : Saisissez la taille de la mémoire physique que vous souhaitez allouer aux données traitées.

Temporary data directory path :définissez l'emplacement où stocker le fichier temporaire.

Multiple output

Cochez la case Separate output pour obtenir plusieurs flux de sortie :
  • -Uniques : lorsque la taille du groupe (distance minimale calculée dans l'enregistrement) est égale à 1, l'enregistrement est listé dans ce flux.

    Lorsque les enregistrements ne sont pas uniques, ils peuvent être :

  • Matches : lorsque la qualité du groupe est supérieure ou égale au seuil défini dans le champ Confident match threshold, l'enregistrement est listé dans ce flux.
  • Suspects : lorsque la qualité du groupe est inférieure au seuil défini dans le champ Confident match threshold, l'enregistrement est listé dans le flux.
Remarque :

Lorsque vous utilisez l'algorithme Simple VSR, la qualité du groupe est la distance minimale calculée dans l'enregistrement.

Lorsque vous utilisez l'algorithme T-Swoosh, la qualité du groupe est la distance minimale calculée parmi toutes les paires d'enregistrements du groupe.

Confident match threshold : configurez une valeur numérique entre la valeur de Match threshold et 1. Au-dessus de ce seuil, vous pouvez avoir confiance en la qualité du groupe.

Multi-pass

Cochez cette case pour permettre à un tMatchGroup de recevoir des ensembles de données provenant du tMatchGroup précédent dans le Job. Cela permet d'affiner les groupes reçus par chaque tMatchGroup tout en créant des partitions de données basées sur les différentes clés de bloc.

Remarque : Lorsque vous utilisez deux composants tMatchGroup et cette option dans un Job, vous devez cocher cette case dans les deux composants tMatchGroup, avant de les relier. Si vous avez relié les composants avant de cocher la case, cochez la case dans le second composant du flux du Job, puis dans le premier composant. Sinon, il est possible que vous rencontriez une erreur, car deux colonnes du schéma de sortie auraient le même nom. Cocher cette case dans un seul tMatchGroup peut causer des erreurs de schémas ne correspondant pas.

Avec un rapprochement à plusieurs passes, tous les enregistrements maître sont générés, mais les enregistrements maître intermédiaires sont supprimés du flux de sortie. Seuls les enregistrements maître finaux et originaux sont conservés.

Lorsque des enregistrements maître uniques du premier tMatchGroup sont fusionnés dans un groupe après être passés dans le second tMatchGroup, leur ordre dans le groupe peut être modifié à chaque exécution du Job.

Pour un Job d'exemple, consultez Rapprocher des données clients via de multiples passes.

Propagate original values : cette option est disponible uniquement avec l'algorithme T-Swoosh. Cochez cette case pour permettre aux enregistrements originaux de chaque passe (et pas seulement les enregistrements sans correspondance) d'être également considérés dans la deuxième passe du rapprochement, à la fois les uns par rapport aux autres et par rapport aux enregistrements maître consolidés. Cela permet de s'assurer qu'aucune correspondance n'est manquée.

Sort the output data by GID

Cochez cette case afin de regrouper les données de sortie par l'identifiant du groupe.

Les données de sortie sont classées selon l'ordre alphanumérique de l'identifiant du groupe.

Output distance details

Cochez cette case pour ajouter une colonne de sortie MATCHING_DISTANCES dans le schéma du composant. Cette colonne donne la distance entre les enregistrements d'entrée et les enregistrements maître de chaque groupe.

Remarque : Lorsque vous utilisez deux composants tMatchGroup et cette option dans un Job, vous devez cocher cette case dans les deux composants tMatchGroup, avant de les relier. Si vous avez relié les composants avant de cocher la case, cochez la case dans le second composant du flux du Job, puis dans le premier composant. Sinon, il est possible que vous rencontriez une erreur, car deux colonnes du schéma de sortie auraient le même nom. Cocher cette case dans un seul tMatchGroup peut causer des erreurs de schémas ne correspondant pas.

Display detailed labels

Cochez cette case pour que la colonne de sortie MATCHING_DISTANCES affiche le nom des colonnes utilisées comme attributs clé selon la règle appliquée en plus de la distance de correspondance.

Par exemple, si vous souhaitez effectuer une correspondance sur les champs de prénom, fname, et de nom, lname, la sortie est fname:1.0|lname:0.97 lorsque la case est cochée et 1.0|0.97 lorsqu'elle ne l'est pas.

Deactivate matching computation when opening the wizard

Cochez cette case pour ouvrir l'assistant de configuration Wizard sans exécuter les règles de rapprochement définies dans l'assistant.

Cela vous permet une meilleure expérience avec le composant. Sinon, l'assistant peut prendre un moment pour s'ouvrir.

tStatCatcher Statistics

Cochez cette case afin de collecter les données de log au niveau du composant. Notez que cette case n'est pas disponible dans la version Map/Reduce de ce composant.

Variables globales

Variables globales

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend.

Utilisation

Règle d'utilisation

Ce composant est un composant intermédiaire. Il requiert un flux d'entrée et un flux de sortie.