Comment le tMatchPredict prédit-il des valeurs sur un jeu de données ? - 7.3

Rapprochement de données à l'aide des outils Talend

Version
7.3
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07
Une fois le modèle d'apprentissage généré, le tMatchPredict peut prédire des valeurs sur un jeu de données à l'aide du modèle qu'il reçoit du tMatchModel.

Les enregistrements d'entrée peuvent être appariés ou non :

  • Si les enregistrement d'entrée sont appariés, le tMatchPredict peut libeller les doublons suspects automatiquement.
  • Si les enregistrement d'entrée n'ont pas été appariés, utilisez le modèle permettant d'apparier les données, généré par le tMatchPairing, pour calculer les doublons suspects.

Plutôt que de retourner des paires, le composant peut aussi retourner des groupes d'enregistrements qui correspondent entre eux, par l'ajout d'un étape de clustering dans l’algorithme. Vous pouvez définir les classes de clustering, qui sont, en règle générale, le libellé correspondant à un match.

L'algorithme utilisé pour le clustering calcule les composants connectés du graphe, où chaque nœud est un enregistrement. Une arête relie deux nœuds si la paire d'enregistrement possède le bon libellé.

Par exemple, si un enregistrement A correspond à un enregistrement B et que cet enregistrement B correspond à un enregistrement C, un groupe comprenant les enregistrements A, B et C est créé même si les enregistrements A et record C ne correspondent pas.