Indicateurs de fréquence des modèles d'Asie de l'Est - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-02-27
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Les indicateurs Fréquence des modèles d'Asie de l'Est et Basse fréquence des modèles d'Asie de l'Est sont les indicateurs de fréquence des modèles relatifs à l'Asie de l'Est.
Il y a deux types d'indicateurs de fréquence des modèles :
  • L'indicateur East Asia Pattern Frequency, qui calcule le nombre d'enregistrements les plus fréquents pour chaque modèle distinct.
  • L'indicateur East Asia Pattern Low Frequency, qui calcule le nombre d'enregistrements les moins fréquents pour chaque modèle distinct.

Ces deux indicateurs fonctionnent uniquement avec des caractères latins et sont disponibles uniquement avec le moteur Java. Ils sont utiles lorsque vous souhaiter identifier des modèles au sein de données asiatiques.

Les deux indicateurs ci-dessus présentent des modèles en convertissant des caractères asiatiques en lettre comme H,K,C et G en suivant les règles décrites dans le tableau suivant :

Type de caractères Utilisation
Chiffres latins 9 remplace tous les chiffres ASCII.
Lettres minuscules latines a remplace tous les caractères latins ASCII.
Latin uppercase letters A remplace tous les caractères latins en majuscule.
Full-width Latin numbers 9 remplace tous les chiffres ASCII.
Full-width Latin lowercase letters a remplace tous les caractères latins ASCII.
Full-width Latin uppercase letters A remplace tous les caractères latins en majuscule.
Hiragana H remplace tous les caractères Hiragana
Katakana moyenne chasse k remplace tous les caractères Katakana moyenne chasse
Full-width Katakana K remplace tous les caractères Katakana pleine chasse
Katakana K remplace tous les caractères Katakana
Kanji C remplace les caractères chinois
Hangul G remplace des caractères Hangeul.

Voici un exemple d'analyse de colonnes utilisant les indicateurs East Asia Pattern Frequency et East Asia Pattern Low Frequency sur une colonne address.

Configuration pour appliquer les indicateurs East Asia Pattern Frequency (Fréquence des modèles d'Asie de l'Est) et East Asia Pattern Low Frequency (Basse fréquence des modèles d'Asie de l'Est).

Les résultats d'analyse de l'indicateur East Asia Pattern Low Frequency ressemblent à ceci :

Résultats graphiques et tabulaires de l'indicateur East Asia Pattern Low Frequency Statistics (Basse fréquence des modèles d'Asie de l'Est).

Ces résultats donnent le nombre d'enregistrements les moins fréquents pour chaque modèle distinct. Certains modèles ont des caractères et des nombres et d'autres contiennent uniquement des caractères. Les modèles ont également différentes longueurs, cela montre que les adresses ne sont pas cohérentes et que vous devez les corriger et les nettoyer.

Indicateurs de fréquence des modèles East Asia et compatibilité avec les bases de données

Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :

Indicateur Types de données supportés par le moteur d'analyse Java Types de données supportés par le moteur d'analyse SQL
East Asia Pattern Frequency
  • Number
  • Text
  • Date
Aucun
East Asia Pattern Low Frequency
  • Number
  • Text
  • Date
Aucun