Améliorer un modèle de rapprochement - 7.3

Rapprochement de données à l'aide des outils Talend

Version
7.3
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Vous pouvez améliorer un modèle de rapprochement en modifiant les paramètres du composant tMatchModel.

Comme le résultat dépend de votre base de données, il n'y a pas de paramètre idéal. L'objectif des tests suivants est de montrer comment différentes configurations peuvent améliorer la qualité du modèle.

Important : Modifier les paramètres peut également affecter la qualité du modèle.
Dans les exemples suivants, vous utilisez une base de données relatives aux centres de garde d'enfants, contenant les données d'entrée suivantes :
  • le nom du site,
  • son adresse et
  • la source des données précédentes.

Les paramètres de référence sont :

Pour effectuer ces tests, la méthode suivante est appliquée : les paramètres sont configurés différemment, un à la fois. Si la qualité du modèle est améliorée, le paramètre est conservé et un autre paramètre est configuré différemment. C'est une méthode permettant de constater l'impact des paramètres sur le modèle.

Seuls les paramètres sont modifiés. Comme testé dans Analyzing the heat map, modifier la clé de rapprochement affecte la qualité du modèle. Address et Site name sont configurés comme clés de rapprochement.

Pour plus d'informations concernant les paramètres, consultez leur description dans la section Propriétés du tMatchModel.

Après avoir exécuté plusieurs Jobs, la plus haute qualité du modèle est : 0.942.

La table suivante indique les paramètres testés :
Paramètres Paramètre de référence Paramètres testés Meilleure qualité du modèle avec un paramètre
Number of trees range 1 de 5 à 15

5 à 20, 5 à 30, 5 à 50, 5 à 100

5 à 30, 5 à 50 ou 5 à 100
Subsampling rate 1.0 0.5 1.0
Impurity Gini L'entropie L'entropie
Max bins 32 15 et 79 79
Subset strategy auto Tous (auto, all, sqrt et log2) auto
Min Instances per Node 1 3 et 10 1
1 Plus l'intervalle des hyper-paramètres est grand (nombre et profondeur des arbres), plus la durée du Job est longue.

Notez que le paramètre Evaluation metric type n'a pas été modifié. Il est resté configuré à F1. Comme le calcul est différent d'un type de métriques d'évaluation à un autre, modifier ce paramètre est inutile dans ces exemples.

Au cours des tests, aucun paramètre particulier n'a augmenté la qualité du modèle de 0.917 à 0.942, c'est la combinaison de ces paramètres qui en est la raison.

Les résultats précédents s'appliquent à une base de données spécifique. Selon votre base de données, la modification des paramètres comme ci-dessus n'aura pas le même impact. L'objectif est de vous montrer que, même si la qualité d'un modèle est satisfaisante, vous pouvez modifier les paramètres pour améliorer le modèle de rapprochement.