Statistiques de fréquence des modèles - 7.0

Guide utilisateur de Talend Big Data Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
Création et développement
EnrichPlatform
Studio Talend

Les indicateurs de ce groupe déterminent les modèles les plus fréquents et les moins fréquents.

  • Fréquence des modèles : calcule le nombre d'enregistrements les plus fréquents pour chaque modèle distinct.

  • Basse fréquence des modèles : calcule le nombre d'enregistrements les moins fréquents pour chaque modèle distinct.

Les deux indicateurs ci-dessus présentent des modèles en convertissant les caractères alphabétiques en a et numériques en 9.

  • Fréquence des modèles d'Asie de l'Est : calcule le nombre d'enregistrements les plus fréquents pour chaque modèle distinct.

  • Basse fréquence des modèles d'Asie de l'Est : calcule le nombre d'enregistrements les moins fréquents pour chaque modèle distinct.

Les deux indicateurs ci-dessus fonctionnent uniquement avec des caractères latins et sont disponibles uniquement avec le moteur Java. Ils sont utiles lorsque vous souhaiter identifier des modèles au sein de données asiatiques.

Les deux indicateurs ci-dessus présentent des modèles en convertissant des caractères asiatiques en lettre comme H,K,C et G en suivant les règles décrites dans le tableau suivant :

Type de caractères

Plage Unicode

Utilisation

Hiragana

\u3040-\u309F

H et h remplacent les caractères en majuscules et minuscules, respectivement.

Katakana

\u30A1-\u30FA

K et k remplacent les caractères en majuscules et minuscules, respectivement.

Extensions Katakana Phonetic

\u31F0-\u31FF

k remplace tous les caractères (minuscules).

Half-width Katakana

\uFF66-\uFF9F

K et k remplacent les caractères en majuscules et minuscules, respectivement.

Nombres latins pleine chasse

\uFF10-\uFF19

9 remplace tous les chiffres ASCII.

Lettres majuscules latines pleine chasse

\uFF21-\uFF3A

A remplace tous les caractères.

Lettres minuscules latines pleine chasse

\uFF41-\uFF5A

a remplace tous les caractères latins ASCII.

Kanji

Idéogrammes unifiés CJC :

  • [4E00-9FCC]

Supplément A aux idéogrammes unifiés CJC :

  • [3400-4DB5]

Supplément B aux idéogrammes unifiés CJC :

  • [20000-2A6D6]

Supplément C aux idéogrammes unifiés CJC :

  • [2A700-2B734]

Supplément D aux idéogrammes unifiés CJC :

  • [2B740-2B81D]

Idéogrammes de compatibilité CJC :

  • [F900-FA6D]

  • [FA70-FAD9]

Supplément aux idéogrammes de compatibilité CJC :

  • [2F800-2FA1D]

Clés CJC / Clés KangXi :

  • [2F00-2FD5]

Formes supplémentaires des clés CJC :

  • [2E80-2E99]

  • [2E9B-2EF3]

Symboles et ponctuation CJC :

  • [3005-3005]

  • [3007-3007]

  • [3021-3029]

  • [3038-303B]

C remplace des caractères chinois.

Hangul

\uAC00-\uD7AF

G remplace des caractères Hangeul.

Voici un exemple d'analyse de colonnes utilisant les indicateurs East Asia Pattern Frequency et East Asia Pattern Low Frequency sur une colonne address.

Les résultats d'analyse de l'indicateur East Asia Pattern Low Frequency ressemblent à ceci :

Ces résultats donnent le nombre d'enregistrements les moins fréquents pour chaque modèle distinct. Certains modèles ont des caractères et des nombres et d'autres contiennent uniquement des caractères. Les modèles ont également différentes longueurs, cela montre que les adresses ne sont pas cohérentes et que vous devez les corriger et les nettoyer.