Propriétés du tRecordMatching Standard - 7.3

Rapprochement de données à l'aide des outils Talend

Version
7.3
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Ces propriétés sont utilisées pour configurer le tRecordMatching s'exécutant dans le framework de Jobs Standard.

Le composant tRecordMatching Standard appartient à la famille Qualité de données.

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champ qui sont traités et passés au composant suivant. Le schéma est soit local (Built-in), soit distant dans le Repository.

 

Built-in : le schéma est créé et stocké localement pour ce composant seulement. Scénario associé : consultez le Guide d'utilisation du Studio Talend.

 

Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisable dans divers projets et Job designs. Scénario associé : consultez le Guide d'utilisation du Studio Talend.

Replace output column with lookup column if matches or possible matches

Cochez cette case pour remplacer la colonne de sortie par la colonne de référence en cas de correspondance ou de valeurs de correspondances possibles.

Une fois la case cochée, la table Columns Mapping apparaît.

Columns Mapping

Complétez ce tableau afin de définir le colonnes de sortie à remplacer et les colonnes de référence de substitution. Les colonnes à renseigner sont :

- Output Column : sélectionnez la colonne qui vous intéresse dans la liste déroulante. Dans cette liste, les deux colonnes MATCHING_WEIGHT et MATCHING_DISTANCES sont définies par défaut. Les autres colonnes sont disponibles lorsque vous les avez définies dans l'éditeur du schéma du composant. Pour plus d'informations concernant ces deux colonnes par défaut, consultez Utiliser une correspondance d'entrées utilisant les algorithmes Q-grams et Levenshtein.

- Lookup Column : sélectionnez la colonne qui vous intéresse dans la liste déroulante. Cette liste est disponible lorsqu'un lien Lookup a été ajouté afin de fournir au composant les colonnes de référence correspondantes.

Cliquez sur l'icône d'import pour sélectionner une règle de rapprochement dans le référentiel du Studio.

Lorsque vous cliquez sur l'icône d'import, un assistant Match Rule Selector s'ouvre pour vous permettre d'importer les règles de rapprochement du référentiel du Studio et les utiliser dans votre Job.

Vous pouvez importer des règles créées avec l'algorithme VSR. L'algorithme T-Swoosh ne fonctionne pas avec ce composant. Pour plus d'informations concernant l'import de règles VSR, consultez Import de règles de mise en correspondance depuis le référentiel du Studio.

Input Key Attribute

Sélectionnez la ou les colonne(s) du flux principal devant être vérifiées par rapport à la colonne clé de référence (lookup).

Remarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.

Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.

Lookup Key Attribute

Sélectionnez les colonnes clé du flux lookup que vous utiliserez comme référence, c'est-à-dire auxquelles vous souhaitez comparer les colonnes du flux d'entrée.

Matching Function

Sélectionnez l'algorithme de correspondance dans la liste :

Exact Match : associe chaque entrée traitée à toutes les entrées possibles de référence qui ont exactement la même valeur.

Levenshtein : cette option se base sur la théorie de la distance d'édition. Elle calcule le nombre d'insertions, suppressions ou substitutions nécessaires pour qu'une entrée corresponde à l'entrée de référence.

Metaphone : cette option se base sur un algorithme phonétique afin d'indexer les entrées selon leur prononciation. Elle charge d'abord la phonétique de toutes les entrées du flux lookup de référence, puis vérifie toutes les entrées du flux principal par rapport aux entrées du flux de référence.

Double Metaphone : nouvelle version de l'algorithme phonétique Métaphone, qui produit des résultats plus précis que l'algorithme originel. Il peut retourner un code primaire et un code secondaire pour une chaîne de caractères. Cela est utile dans des cas ambigus, mais également pour de multiples variantes de noms de famille aux origines communes.

Exact - ignore case : met en correspondance chaque entrée traitée à toutes les entrées de référence possibles ayant les mêmes valeurs, en ignorant la valeur de la casse.

Soundex : met en correspondance les entrées traitées selon un algorithme phonétique de prononciation britannique standard.

Soundex FR : met en correspondance les entrées traitées selon un algorithme phonétique de prononciation française standard.

Jaro : met en correspondance les entrées traitées selon des erreurs d'orthographe.

q-grams : met en correspondance les entrées traitées en divisant les chaînes de caractères en blocs de lettres de longueur q, afin de créer un nombre de longueurs q-grammes. Le résultat de correspondance est donné comme le nombre de correspondances entre les q-grammes d'entrée et de référence, divisé par le nombre de q-grammes possibles.

Hamming : calcule le nombre minimal de substitutions requises pour transformer une chaîne de caractères en une autre de la même longueur. Par exemple, la distance de Hamming entre "masking" et "pairing" est égale à 3.

custom... : permet de charger un algorithme externe de mise en correspondance à partir d'une bibliothèque Java. La colonne Custom Matcher est activée lorsque vous sélectionnez cette option.

Pour plus d'informations concernant le chargement d'une bibliothèque Java externe, consultez tLibraryLoad.

Custom Matcher

Saisissez le chemin pointant vers la classe personnalisée (algorithme externe de mise en correspondance) que vous souhaitez utiliser. Ce chemin d'accès est défini par vos soins dans le fichier de la bibliothèque (fichier .jar), que vous pouvez importer à l'aide du composant tLibraryLoad.

Pour plus d'informations, consultez Créer un algorithme de correspondance personnalisé.

 

Tokenized measure

La segmentation (tokenization) est le concept de diviser une chaîne de caractères en mots. Sélectionnez la méthode à utiliser pour calculer une mesure segmentée pour l'algorithme sélectionné :

NO : aucune méthode de segmentation n'est utilisée sur la chaîne de caractères. Avec cette option, "John Doe" et "Jon Doe" doivent correspondre.

Same place : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2. Associe chaque élément de la première liste à l'élément à la même position dans la seconde liste. Avec cette méthode, "She is red and he is pink" et "Catherine is red and he is pink" doivent correspondre.

Same order : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2 et suppose que la première liste est plus courte que la seconde. Essaye d'associer les éléments de la première liste aux éléments de la seconde, pris dans le même ordre. Avec cette méthode, "John Doe" et "John B. Doe" correspondent.

Cette méthode doit être utilisée uniquement avec des chaînes de caractères contenant peu de mots, sinon, le nombre de combinaisons possible peut être vraiment important.

Any order : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2 et suppose que la première liste est plus courte que la seconde. Tente d'attribuer chaque mot de la première liste à un mot de la seconde, pour une similarité globale la plus élevée possible.

Avec cette méthode, "John Doe" et "Doe John" correspondent.

Weight

Définissez un poids numérique pour chaque attribut (colonne) de la définition de clé. Les valeurs doivent être supérieures à 0.

Handle Null

Handle Null

Pour gérer des valeurs Null, sélectionnez dans la liste l'opérateur à utiliser sur la colonne :

Null Match Null : un attribut Null correspond à un autre attribut Null uniquement.

Null Match None : un attribut Null ne correspond jamais à un autre attribut.

Null Match All : un attribut Null correspond à n'importe quelle autre valeur d'un attribut.

Par exemple, dans deux colonnes name et firstname pour lesquelles le nom n'est jamais null, le prénom peut être null.

Si vous avez deux enregistrements :

"Doe", "John"

"Doe", ""

Selon l'opérateur sélectionné, ces deux enregistrements peuvent correspondre ou ne pas correspondre :

Null Match Null : ne correspondent pas.

Null Match None : ne correspondent pas.

Null Match All : correspondent.

Pour les enregistrements :

"Doe", ""

"Doe", ""

Null Match Null : correspondent.

Null Match None : ne correspondent pas.

Null Match All : correspondent.

Input Column

Au besoin, sélectionnez la (les) colonne(s) de flux d'entrée selon laquelle (lesquelles) vous souhaitez partitionner les données traitées en blocs, ce qui est habituellement appelé "blocking".

La création de blocs (ou de groupes) réduit le nombre de paires d'enregistrements nécessitant examen. Lors de la création de blocs, les données d'entrée sont partitionnées en blocs exhaustifs créés pour augmenter la proportion de correspondances observées lors de la réduction du nombre de paires à comparer. Les comparaisons sont limitées aux paires d'enregistrements dans chaque bloc.

Utiliser des colonnes de bloc est très utile lorsque vous traitez des données très volumineuses.

Matching strategy
Sélectionnez le type de correspondance en sortie qui répond le mieux à vos besoins. Choisissez :
  • All matches : écrit en sortie les enregistrements qui correspondent ou peuvent correspondre.

  • Best match : écrit en sortie uniquement l'enregistrement possédant le plus haut score de correspondance.

  • First match : écrit en sortie le premier enregistrement correspondant. Si aucun ne correspond, la première correspondance possible sera écrite en sortie.

  • Last match : écrit en sortie le dernier enregistrement correspondant. Si aucun ne correspond, la dernière correspondance possible sera écrite en sortie.

    Au moment de sélectionner votre stratégie de correspondance, les scores de correspondance sont cruciaux. Définissez-les dans les champs Possible match interval dans la vue Advanced settings.

Paramètres avancés

Matching Algorithm

Sélectionnez un algorithme dans la liste. Un seul algorithme est disponible pour le moment.

Simple VSR : cet algorithme est basé sur la méthode de modèle vectoriel, qui spécifie comment deux enregistrements peuvent correspondre.

Pour plus d'informations concernant l'import de règles basées sur l'algorithme VSR, consultez Import de règles de mise en correspondance depuis le référentiel du Studio.

Possible match interval

Saisissez une valeur minimale et une valeur maximale.

minimum : définissez la distance minimum d'enregistrements autorisée afin de correspondre à la référence (les valeurs doivent être supérieures à 0). maximum : définissez la distance maximum d'enregistrements autorisée afin de correspondre à la référence (les valeurs doivent être inférieures à 1).

Par exemple, si vous définissez 0,5 comme valeur minimum et 0,9 comme valeur maximum, les scores égaux ou supérieurs à 0,9 indiquent une correspondance. Ceux compris entre 0,5 exclu et 0,9 exclu indiquent une correspondance possible et les autres résultats indiquent qu'il n'y a pas de correspondance.

Store on disk (Stocker sur le disque)

Cochez cette case si vous souhaitez stocker les blocs de données traitées sur le disque, afin d'optimiser les performances de votre système.

Statistiques du tStatCatcher

Cochez cette case pour collecter les données de log au niveau des composants.

Variables globales

Variables globales

NB_MATCH_LINE : nombre de lignes correspondant à l'algorithme de comparaison. Cette variable est une variable After et retourne un entier.

NB_POSSIBLE_MATCH_LINE : nombre de lignes pouvant correspondre à l'algorithme de rapprochement. Cette variable est une variable After et retourne un entier.

NB_NONE_MATCH_LINE : nombre de lignes ne correspondant pas à l'algorithme de rapprochement. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend.

Utilisation

Règle d'utilisation

Ce composant n'est pas un composant de début, il nécessite deux composants d'entrée, et un ou plusieurs composant(s) de sortie.