Statistiques de fréquence Soundex - 8.0

Guide d'utilisation de Talend Big Data Platform Studio

Version
8.0
Language
Français (France)
EnrichDitaval
Big Data Platform
Product
Talend Big Data Platform
Module
Studio Talend
Content
Création et développement

Les indicateurs de ce groupe utilisent l'algorithme Soundex construit dans le SGBD.

Ils indexent les enregistrements par son. Ainsi, les enregistrements ayant la même prononciation (uniquement la prononciation anglaise) sont encodés avec la même représentation pour qu'ils puissent correspondre malgré de légères différences orthographiques.

  • Fréquence Soundex : calcule le nombre d'enregistrements distincts les plus fréquents relativement au nombre total d'enregistrements ayant la même prononciation.
  • Basse fréquence Soundex : calcule le nombre d'enregistrements distincts les moins fréquents relativement au nombre total d'enregistrements ayant la même prononciation.

Pour pouvoir utiliser les indicateurs de fréquence Soundex dans PostgreSQL, Amazon pour PostgreSQL et Amazon Redshift, installez une extension dans la base de données PostgreSQL à l'aide de la requête CREATE EXTENSION fuzzystrmatch;.

Pour plus d'informations, consultez https://www.postgresql.org/docs/11/fuzzystrmatch.html.

Pour pouvoir utiliser des indicateurs de fréquence Soundex dans Amazon Redshift, vous pouvez également créer une fonction personnalisée.

Pour plus d'informations, consultez https://docs.aws.amazon.com/redshift/latest/dg/user-defined-functions.html.

Vous pouvez utiliser les indicateurs de fréquence Soundex dans Snowflake uniquement avec le moteur Java.

Les caractères chinois sont supportés uniquement par le moteur SQL.

Des limitations dans l'implémentation Soundex de Teradata peuvent vous empêcher d'explorer les résultats du profiling Teradata avec cet indicateur.

Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :

Type de données Number Text Date Autres
Type de moteur d'analyse Java SQL Java SQL Java SQL Java SQL
Table de fréquence Soundex
Table de basse fréquence Soundex