Accéder au contenu principal

L'algorithme T-Swoosh

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Ce scénario décrit un Job simple comparant des colonnes dans le fichier d'entrée à l'aide de la méthode de rapprochement de Jaro-Winkler sur les colonnes lname and fname. Il groupe ensuite les enregistrements de sortie dans des flux de sortie :
  • Uniques : liste les enregistrements dont la taille du groupe (distance minimale calculée dans l'enregistrement) est égale à 1.

  • Matches : liste les enregistrements dont la qualité du groupe est supérieure ou égale au seuil défini dans le champ Confident match threshold.

  • Suspects : liste les enregistrements dont la qualité du groupe est inférieure au seuil défini dans le champ Confident match threshold.

La qualité du groupe est la distance minimale calculée parmi toutes les paires d'enregistrements du groupe.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !