Propriétés du tRecordMatching Standard - 7.0

Data matching

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tRecordMatching s'exécutant dans le framework de Jobs Standard.

Le composant tRecordMatching Standard appartient à la famille Data Quality.

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository.

 

Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend .

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend .

Replace output column with lookup column if matches or possible matches

Cochez cette case pour remplacer la colonne de sortie par la colonne de référence en cas de correspondance ou de valeurs de correspondances possibles. Une fois la case cochée, le tableau Columns Mapping apparaît.

Columns Mapping

Complétez ce tableau afin de définir le colonnes de sortie à remplacer et les colonnes de référence de substitution.

- Output Column : sélectionnez la colonne à remplacer dans la liste déroulante. Dans cette liste, les deux colonnes MATCHING_WEIGHT et MATCHING_DISTANCES sont définies par défaut. Les autres colonnes sont disponibles lorsque vous les avez définies dans le schéma du composant. Pour plus d'informations concernant ces deux colonnes par défaut, consultez Correspondance d'entrées utilisant les algorithmes Q-grams et Levenshtein.

- Lookup Column ; sélectionnez la colonne de substitution dans la liste déroulante. Cette liste est disponible lorsqu'un lien Lookup a été ajouté afin de fournir au composant les colonnes de référence correspondantes.

Cliquez sur l'icône d'import pour sélectionner une règle de rapprochement dans le référentiel du Studio.

Lorsque vous cliquez sur l'icône d'import, un assistant [Match Rule Selector] s'ouvre pour vous permettre d'importer les règles de rapprochement du référentiel du Studio et les utiliser dans votre Job.

Vous pouvez importer des règles créées avec l'algorithme VSR. L'algorithme T-Swoosh ne fonctionne pas avec ce composant. Pour plus d'informations, concernant l'import de règles VSR, consultez Import de règles de mise en correspondance depuis le référentiel du studio.

Input Key Attribute

Sélectionnez la ou les colonne(s) du flux principal devant être vérifiées par rapport à la colonne clé de référence (lookup).

Remarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de mise en correspondance, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.

Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.

Lookup Key Attribute

Sélectionnez les colonnes clé du flux lookup que vous utiliserez comme référence, c'est-à-dire auxquelles vous souhaitez comparer les colonnes du flux d'entrée.

Matching Function

Sélectionnez l'algorithme de correspondance dans la liste :

Exact Match : associe chaque entrée traitée à toutes les entrées possibles de référence qui ont exactement la même valeur.

Levenshtein : cette option se base sur la théorie de la distance d'édition. Elle calcule le nombre d'insertions, suppressions ou substitutions nécessaires pour qu'une entrée corresponde à l'entrée de référence.

Metaphone : Cette option se base sur un algorithme phonétique afin d'indexer les entrées selon leur prononciation. Elle charge d'abord la phonétique de toutes les entrées du flux lookup de référence, puis vérifie toutes les entrées du flux principal par rapport aux entrées du flux de référence.

Double Metaphone : une nouvelle version de l'algorithme phonétique Métaphone, qui produit des résultats plus précis que l'algorithme originel. Il peut retourner un code primaire et un code secondaire pour une chaîne de caractères. Cela est utile dans des cas ambigus, mais également pour de multiples variantes de noms de famille aux origines communes.

Exact - ignore case : fait correspondre chaque entrée traitée à toutes les entrées de référence possibles ayant les mêmes valeurs, en ignorant la valeur de la casse.

Soundex : algorithme phonétique utile pour la comparaison de prénoms, selon la prononciation britannique.

Soundex FR : algorithme phonétique utile pour la comparaison de prénoms, selon la prononciation française.

Jaro ; fait correspondre les entrées traitées selon des erreurs d'orthographe.

q-grams : fait correspondre les entrées traitées en divisant les chaînes de caractères en blocs de lettres de longueur q, afin de créer un nombre de longueurs q-grammes. Le résultat de correspondance est donné comme le nombre de correspondances entre les q-grammes d'entrée et de référence, divisé par le nombre de q-grammes possibles.

Hamming : calcule le nombre minimal de substitutions requises pour transformer une chaîne de caractères en une autre de la même longueur. Par exemple, la distance de Hamming entre "masking" et "pairing" est égale à 3.

custom... : permet de charger un algorithme externe de mise en correspondance à partir d'une bibliothèque Java. La colonne Custom Matcher est activée lorsque vous sélectionnez cette option.

Pour plus d'informations concernant le chargement d'une bibliothèque externe Java, consultez tLibraryLoad.

Custom Matcher

Saisissez le chemin pointant vers la classe personnalisée (algorithme externe de mise en correspondance) que vous souhaitez utiliser. Vous définissez ce chemin dans le fichier de la bibliothèque (fichier .jar), que vous pouvez importer à l'aide du composant tLibraryLoad.

Pour plus d'informations, consultez Créer un algorithme de correspondance personnalisé.

 

Tokenized measure

La segmentation (tokenization) est le concept de diviser une chaîne de caractères en mots. Sélectionnez la méthode à utiliser pour calculer une mesure segmentée pour l'algorithme sélectionné :

NO : aucune méthode de segmentation n'est utilisée sur la chaîne de caractères. Avec cette option, "John Doe" et "Jon Doe" correspondent.

Same place : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2. Associe chaque élément de la première liste à l'élément à la même position dans la seconde liste. Avec cette méthode, "She is red and he is pink" et "Catherine is red and he is pink" correspondent.

Same order : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2 et suppose que la première liste est plus courte que la seconde. Essaye d'associer les éléments de la première liste aux éléments de la seconde, pris dans le même ordre. Avec cette méthode, "John Doe" et "John B. Doe" correspondent.

Cette méthode doit être utilisée uniquement avec des chaînes de caractères contenant peu de mots, sinon, le nombre de combinaisons possible peut être vraiment important.

Any order : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2 et suppose que la première liste est plus courte que la seconde. Tente d'assigner chaque mot de la première liste à un mot de la seconde, pour une similarité globale la plus élevée possible.

Avec cette méthode, "John Doe" et "Doe John" correspondent.

Weight

Définissez un poids numérique pour chaque attribut (colonne) de la définition de clé. Les valeurs doivent être supérieures à 0.

Handle Null

Handle Null

Pour gérer des valeurs Null, sélectionnez dans la liste l'opérateur à utiliser sur la colonne :

Null Match Null : un attribut Null correspond à un autre attribut Null uniquement.

Null Match None : un attribut Null ne correspond jamais à un autre attribut.

Null Match All : un attribut Null correspond à n'importe quelle autre valeur d'un attribut.

Par exemple, dans deux colonnes name et firstname pour lesquelles le nom n'est jamais null, le prénom peut être null.

Si vous avez deux enregistrements :

"Doe", "John"

"Doe", ""

Selon l'opérateur sélectionné, ces deux enregistrements peuvent correspondre ou ne pas correspondre :

Null Match Null : ne correspondent pas.

Null Match None : ne correspondent pas.

Null Match All : correspondent.

Pour les enregistrements

"Doe", ""

"Doe", ""

Null Match Null : correspondent.

Null Match None : ne correspondent pas.

Null Match All : correspondent.

Input Column

Au besoin, sélectionnez la (les) colonne(s) de flux d'entrée selon laquelle (lesquelles) vous souhaitez partitionner les données traitées en blocs, ce qui est habituellement appelé "blocking".

La création de blocs (ou de groupes) réduit le nombre de paires d'enregistrements nécessitant examen. Lors de la création de blocs, les données d'entrée sont partitionnées en blocs exhaustifs créés pour augmenter la proportion de correspondances observées lors de la réduction du nombre de paires à comparer. Les comparaisons sont limitées aux paires d'enregistrements dans chaque bloc.

Utiliser des colonnes de bloc est très utile lorsque vous traitez des données très volumineuses.

Matching strategy
Sélectionnez le type de correspondance en sortie qui répond le mieux à vos besoins. Choisissez :
  • All matches : écrit en sortie les enregistrements qui correspondent ou peuvent correspondre.

  • Best match : écrit en sortie uniquement l'enregistrement possédant le plus haut score de correspondance.

  • First match : écrit en sortie le premier enregistrement correspondant. Si aucun ne correspond, la première correspondance possible sera écrite en sortie.

  • Last match : écrit en sortie le dernier enregistrement correspondant. Si aucun ne correspond, la dernière correspondance possible sera écrite en sortie.

    Au moment de sélectionner votre stratégie de correspondance, les scores de correspondance sont cruciaux. Définissez-les dans le champ Possible match interval dans la vue Advanced settings.

Advanced settings

Matching Algorithm

Sélectionnez un algorithme dans la liste. Un seul algorithme est disponible pour le moment.

Simple VSR : cet algorithme est basé sur la méthode de modèle vectoriel, qui spécifie comment deux enregistrements peuvent correspondre.

Pour plus d'informations concernant l'import de règles basées sur l'algorithme VSR, consultez Import de règles de mise en correspondance depuis le référentiel du studio.

Possible match interval

Saisissez une valeur minimale et une valeur maximale.

minimum : définissez le nombre minimum de changements autorisés afin de correspondre à la référence (les valeurs doivent être supérieures à 0)

maximum : définissez le nombre maximal de changements autorisés afin de correspondre à la référence (Les valeurs doivent être inférieures à 1).

Par exemple, si vous définissez 0,5 comme valeur minimum et 0,9 comme valeur maximum, les scores égaux ou supérieurs à 0,9 indiquent une correspondance. Ceux compris entre 0,5 exclu et 0,9 exclu indiquent une correspondance possible et les autres résultats indiquent qu'il n'y a pas de correspondance.

Store on disk

Cochez cette case si vous souhaitez stocker les blocs de données traitées sur le disque, afin d'optimiser les performances de votre système.

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de process du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

Global Variables

NB_MATCH_LINE : nombre de lignes correspondant à l'algorithme de comparaison. Cette variable est une variable After et retourne un entier.

NB_POSSIBLE_MATCH_LINE : nombre de lignes pouvant correspondre à l'algorithme de rapprochement. Cette variable est une variable After et retourne un entier.

NB_NONE_MATCH_LINE : nombre de lignes ne correspondant pas à l'algorithme de rapprochement. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend .

Utilisation

Règle d'utilisation

Ce composant est un composant intermédiaire, il nécessite un composant d'entrée et un composant de sortie.