Statistiques de fréquence Soundex - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Les indicateurs de ce groupe utilisent l'algorithme Soundex construit dans le SGBD.

Ils indexent les enregistrements par son. Ainsi, les enregistrements ayant la même prononciation (uniquement la prononciation anglaise) sont encodés avec la même représentation pour qu'ils puissent correspondre malgré de légères différences orthographiques.

  • Fréquence Soundex : calcule le nombre d'enregistrements distincts les plus fréquents relativement au nombre total d'enregistrements ayant la même prononciation.
  • Basse fréquence Soundex : calcule le nombre d'enregistrements distincts les moins fréquents relativement au nombre total d'enregistrements ayant la même prononciation.

Pour pouvoir utiliser les indicateurs de fréquence Soundex dans PostgreSQL, Amazon pour PostgreSQL et Amazon Redshift, installez une extension dans la base de données PostgreSQL à l'aide de la requête CREATE EXTENSION fuzzystrmatch;.

Pour plus d'informations, consultez la documentation PostgreSQL (en anglais).

Pour pouvoir utiliser des indicateurs de fréquence Soundex dans Amazon Redshift, vous pouvez également créer une fonction personnalisée.

Pour plus d'informations, consultez Création de fonctions définies par l'utilisateur.

Vous pouvez utiliser les indicateurs de fréquence Soundex dans Snowflake uniquement avec le moteur Java.

Les caractères chinois sont supportés uniquement par le moteur SQL.

Des limitations dans l'implémentation Soundex de Teradata peuvent vous empêcher d'explorer les résultats du profiling Teradata avec cet indicateur.

Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :

Indicateur Types de données supportés par le moteur d'analyse Java Types de données supportés par le moteur d'analyse SQL
Table de fréquence Soundex Text Text
Table de basse fréquence Soundex Text Text