Statistiques de fréquence Soundex - 7.0

Guide utilisateur de Talend Data Management Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Management Platform
task
Création et développement
EnrichPlatform
Studio Talend

Les indicateurs de ce groupe utilisent l'algorithme Soundex construit dans le SGBD.

Ils indexent les enregistrements par son. Ainsi, les enregistrements ayant la même prononciation (uniquement la prononciation anglaise) sont encodés avec la même représentation pour qu'ils puissent correspondre malgré de légères différences orthographiques.

  • Fréquence Soundex : calcule le nombre d'enregistrements distincts les plus fréquents relativement au nombre total d'enregistrements ayant la même prononciation.

  • Basse fréquence Soundex : calcule le nombre d'enregistrements distincts les moins fréquents relativement au nombre total d'enregistrements ayant la même prononciation.

Remarque : Des limitations dans l'implémentation Soundex de Teradata peuvent vous empêcher d'explorer les résultats du profiling Teradata avec cet indicateur. Pour plus d'informations, consultez la documentation sur Erreur de Teradata : "Invalid Input: only Latin letters allowed" (https://help.talend.com).