Comment le tMatchPredict prédit-il des valeurs sur un jeu de données ?

Une fois le modèle d'apprentissage généré, le tMatchPredict peut prédire des valeurs sur un jeu de données à l'aide du modèle qu'il reçoit du tMatchModel.

Les enregistrements d'entrée peuvent être appariés ou non :

Si les enregistrement d'entrée sont appariés, le tMatchPredict peut libeller les doublons suspects automatiquement.
Si les enregistrement d'entrée n'ont pas été appariés, utilisez le modèle permettant d'apparier les données, généré par le tMatchPairing, pour calculer les doublons suspects.

Plutôt que de retourner des paires, le composant peut aussi retourner des groupes d'enregistrements qui correspondent entre eux, par l'ajout d'un étape de clustering dans l’algorithme. Vous pouvez définir les classes de clustering, qui sont, en règle générale, le libellé correspondant à un match.

L'algorithme utilisé pour le clustering calcule les composants connectés du graphe, où chaque nœud est un enregistrement. Une arête relie deux nœuds si la paire d'enregistrement possède le bon libellé.

Par exemple, si un enregistrement A correspond à un enregistrement B et que cet enregistrement B correspond à un enregistrement C, un groupe comprenant les enregistrements A, B et C est créé même si les enregistrements A et record C ne correspondent pas.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici