Types d'indicateurs

Talend Data Fabric Studio Guide utilisateur

EnrichVersion
6.5
EnrichProdName
Talend Data Fabric
task
Qualité et préparation de données
Création et développement
EnrichPlatform
Studio Talend

Deux types d'indicateurs sont fournis dans le dossier Indicators de la vue DQ Repository, dans la perspective Profiling : des indicateurs système et des indicateurs personnalisés.

Les indicateurs personnalisés, comme leur nom l'indique, sont les indicateurs créés par l'utilisateur. Il est possible de déposer un indicateur personnalisé directement à partir du dossier User Defined Indicators dans l'arborescence. Ils ne sont utilisés que dans des analyses de colonne(s) ouverte(s). Pour plus d'informations concernant la définition d'indicateurs personnalisés sur des colonnes, consultez Définir les indicateurs personnalisés dans l'éditeur d'analyses.

Les indicateurs système sont des indicateurs prédéfinis groupés sous différentes catégories dans le dossier System Indicators de la vue DQ Repository. Chaque catégorie d'indicateurs système est utilisée pour un type d'analyse correspondant.

Il n'est pas possible de créer un indicateur système ou de le déposer directement à partir de la vue DQ Repository dans une analyse. Cependant, un utilisateur peut ouvrir et modifier les paramètres d'un indicateur système afin de les adapter à une base de données spécifique, par exemple. Pour plus d'informations, consultez Modifier un indicateur système.

Seuls les indicateurs système que vous pouvez modifier sont listés dans le dossier System Indicators de la vue DQ Repository. Cependant, la boîte de dialogue [Indicator Selection] liste tous les indicateurs, y compris les indicateurs système que vous ne pouvez modifier, comme l'indicateur Date pattern frequency.

D'autres options de gestion, telles que l'édition, la duplication, l'import et l'export, sont disponibles pour les indicateurs système et personnalisés. Pour plus d'informations, consultez Gérer les indicateurs personnalisés et Gérer les indicateurs système.

Les sections suivantes décrivent les indicateurs système à utiliser uniquement dans les analyses de colonne(s). Les indicateurs système vont des statistiques simples ou avancées aux analyses de chaînes de caractères, en passant par le résumé statistique et les tables de fréquence d'enregistrements.

Statistiques avancées

Ils déterminent les valeurs les plus probables ainsi que les plus fréquentes et construisent des tables de fréquence. Les statistiques avancées principales comprennent les valeurs suivantes :

  • Mode : calcule la valeur la plus probable. Pour des données numériques ou continues, vous pouvez définir des intervalles dans les paramètres de cet indicateur. Il est différent des indicateurs "mean" et "median". Il est utile aussi pour traiter des attributs de type nominal.

  • Value Frequency : calcule le nombre de valeurs les plus fréquentes pour chaque enregistrement distinct.

  • Tous les autres indicateurs de fréquence des valeurs sont disponibles afin d'agréger des données selon la "date", la semaine ("week"), le mois ("month"), le trimestre ("quarter"), l'année ("year"), et l'intervalle ("bin").

  • Value Low frequency : calcule le nombre d'enregistrements les moins fréquents pour chaque enregistrement distinct.

  • Tous les autres indicateurs de basse fréquence des valeurs sont disponibles pour chacune des valeurs suivantes : "date", semaine ("week"), mois ("month"), trimestre ("quarter"), année ("year"), et intervalle ("bin") où "bin" est le regroupement des données numériques par intervalle.

Détection de la fraude

L'indicateur Benford Law (loi des nombres anormaux) se base sur l'examen de la fréquence des chiffres 1 à 9 dans des données numériques. Il est généralement utilisé en tant qu'indicateur dans des listes ou tables afin de détecter la fraude en comptabilité ou dans des dépenses.

La loi de Benford établit que, dans des listes et des tables, le chiffre 1 apparaît comme chiffre de début environ 30% du temps. Les chiffres supérieurs sont moins souvent en première place. Par exemple le chiffre 2 apparaît en premier dans 17% des cas et le chiffre 3 dans environ 12% des cas, etc. Des données valides et non altérées suivent cette fréquence. Une simple comparaison de la fréquence de distribution des premiers chiffres dans les données analysées et de la distribution attendue selon la loi de Benford doit mettre en relief tout résultat anormal.

Imaginez, par exemple, un employé qui fraude en créant et en envoyant des paiements à un vendeur fictif. Puisque les sommes de ces paiements fictifs sont imaginées et n'arrivent pas naturellement, la distribution du premier chiffre de toutes les transactions fictives et valides (mélangées) ne suit pas la loi de Benford. Imaginez également que de nombreux paiements frauduleux commencent par 2, par exemple 29, 232 or 2187. En utilisant l'indicateur de la loi de Benford pour analyser les données, vous pouvez constater que les sommes commençant par 2 sont plus fréquentes que l'occurrence habituelle de 17%.

Lorsque vous utilisez l'indicateur Benford Law, il est recommandé de :

  • vous assurer que les données numériques que vous analysez ne commencent pas par 0, puisque la loi de Benford attend des chiffres de 1 à 9. Cela peut être vérifié en utilisant le modèle number > Integer values sur la colonne que vous analysez.

  • vérifier l'ordre de grandeur des données, soit en sélectionnant les indicateurs de valeurs minimale et maximale, soit en utilisant l'indicateur Order of Magnitude que vous pouvez importer de Talend Exchange. La loi de Benford tend à être plus précise lorsque les valeurs sont distribuées à travers différents ordres de grandeurs. Pour plus d'informations concernant l'import d'indicateurs de Talend Exchange, consultez Importer des indicateurs personnalisés à partir de Talend Exchange.

Dans le diagramme des résultats de l'indicateur Benford Law, les chiffres 1 à 9 sont représentés par des barres. La hauteur de la barre représente le pourcentage de distribution du premier chiffre, dans les données analysées. Les points sur les barres représentent la fréquence de distribution attendue du premier chiffre, selon la loi de Benford.

Voici un exemple des résultats d'une analyse après utilisation de l'indicateur Benford Law et de l'indicateur personnalisé Order of Magnitude sur une colonne total_sales.

Le premier diagramme montre que les données analysées possèdent cinq ordres de grandeur différents, c'est-à-dire qu'il y a 5 chiffres entre la valeur minimale et la valeur maximale de la colonne numérique.

Le second diagramme montre que la distribution des données (hauteur des barres) ne respecte pas la loi de Benford (valeur des points). Les différences sont particulièrement grandes entre la fréquence de distribution des chiffres des ventes et la distribution attendue par la loi de Benford. Par exemple, le modèle le plus fréquent pour les chiffres des ventes commençant par 1 est 30 %. Ces chiffres, dans les données analysées, représentent seulement 20 %. Une fraude peut être suspectée, les chiffres des ventes ont pu être modifiés par quelqu'un, ou bien des données sont manquantes.

Voici un autre exemple de diagramme de résultats d'une analyse de colonne, après utilisation de l'indicateur Benford Law.

La barre rouge nommée invalid présente le pourcentage des données analysées ne commençant pas par un chiffre. La barre 0 représente le pourcentage des données commençant par un 0. Ces deux cas ne sont pas attendus lors d'analyse de colonnes à l'aide de l'indicateur Benford Law. C'est pour cela que les colonnes sont rouges.

Pour plus d'informations concernant l'analyse de colonnes, consultez Créer une analyse simple sur une colonne d'une base de données.

Statistiques de fréquence des modèles

Les indicateurs de ce groupe déterminent les modèles les plus fréquents et les moins fréquents.

  • Pattern frequency : calcule le nombre d'enregistrements les plus fréquents pour chaque modèle distinct.

  • Pattern low frequency : calcule le nombre d'enregistrements les moins fréquents pour chaque modèle distinct.

  • Date pattern frequency : retourne les modèles de date à partir de colonnes de date ou de texte. Cela ne fonctionne qu'avec le moteur Java.

Les deux indicateurs ci-dessus présentent des modèles en convertissant les caractères alphabétiques en a et numériques en 9.

  • East Asia Pattern Frequency : calcule le nombre d'enregistrements les plus fréquents pour chaque modèle distinct.

  • East Asia Pattern Low Frequency : calcule le nombre d'enregistrements les moins fréquents pour chaque modèle distinct.

Les deux indicateurs ci-dessus fonctionnent uniquement avec des caractères latins et sont disponibles uniquement avec le moteur Java. Ils sont utiles lorsque vous souhaiter identifier des modèles au sein de données asiatiques.

Les deux indicateurs ci-dessus présentent des modèles en convertissant des caractères asiatiques en lettre comme H,K,C et G en suivant les règles décrites dans le tableau suivant :

Type de caractères

Plage Unicode

Utilisation

Hiragana

\u3040-\u309F

H et h remplacent les caractères en majuscules et minuscules, respectivement.

Katakana

\u30A1-\u30FA

K et k remplacent les caractères en majuscules et minuscules, respectivement.

Katakana Phonetic Extensions

\u31F0-\u31FF

k remplace tous les caractères (minuscules)

Halfwidth Katakana

\uFF66-\uFF9F

K et k remplacent les caractères en majuscules et minuscules, respectivement.

Fullwidth Latin Numbers

\uFF10-\uFF19

9 remplace tous les chiffres ASCII.

Fullwidth Latin Uppercased Letters

\uFF21-\uFF3A

A remplace tous les caractères.

Fullwidth Latin Lowercased Letters

\uFF41-\uFF5A

a remplace tous les caractères latins ASCII.

Kanji

Idéogrammes unifiés CJC :

  • [4E00-9FCC]

Supplément A aux idéogrammes unifiés CJC :

  • [3400-4DB5]

Supplément B aux idéogrammes unifiés CJC :

  • [20000-2A6D6]

Supplément C aux idéogrammes unifiés CJC :

  • [2A700-2B734]

Supplément D aux idéogrammes unifiés CJC :

  • [2B740-2B81D]

Idéogrammes de compatibilité CJC :

  • [F900-FA6D]

  • [FA70-FAD9]

Supplément aux idéogrammes de compatibilité CJC :

  • [2F800-2FA1D]

Clés CJC / Clés KangXi :

  • [2F00-2FD5]

Formes supplémentaires des clés CJC :

  • [2E80-2E99]

  • [2E9B-2EF3]

Symboles et ponctuation CJC :

  • [3005-3005]

  • [3007-3007]

  • [3021-3029]

  • [3038-303B]

C remplace des caractères chinois.

Hangul

\uAC00-\uD7AF

G remplace des caractères Hangeul.

Voici un exemple d'analyse de colonnes utilisant les indicateurs East Asia Pattern Frequency et East Asia Pattern Low Frequency sur une colonne address.

Les résultats d'analyse de l'indicateur East Asia Pattern Low Frequency ressemblent à ceci :

Ces résultats donnent le nombre d'enregistrements les moins fréquents pour chaque modèle distinct. Certains modèles ont des caractères et des nombres et d'autres contiennent uniquement des caractères. Les modèles ont également différentes longueurs, cela montre que les adresses ne sont pas cohérentes et que vous devez les corriger et les nettoyer.

Statistiques des numéros de téléphone

Les indicateurs de ce groupe comptent les numéros de téléphone. Ils retournent le compte de chaque format de numéro de téléphone et valident les formats des numéros de téléphone à l'aide de la bibliothèque org.talend.libraries.google.libphonumber.

  • Valid phone number count : compte le nombre de numéros de téléphone valides.

  • Possible phone number count : compte le nombre de numéros de téléphone supposés valides.

  • Valid region code number count : compte les numéros de téléphone ayant un code région valide.

  • Invalid region code count : compte les numéros de téléphone ayant un code région invalide.

  • Well formed national phone number count : compte les numéros de téléphone nationaux correctement formatés.

  • Well formed international phone number count : compte les numéros de téléphone internationaux respectant le format international (les numéros de téléphone commençant par le code pays) .

  • Well formed E164 phone number count : compte les numéros de téléphone internationaux respectant le format international (au maximum quinze chiffres et un préfixe + ).

  • Format Phone Number Frequency : affiche les résultats du compte des numéros de téléphone dans un diagramme circulaire divisé en secteurs.

Statistiques simples

Ils fournissent des statistiques simples sur le nombre d'enregistrements appartenant à certaines catégories, comme le nombre de lignes, le nombre de valeurs nulles, le nombre de valeurs distinctes et uniques, le nombre de valeurs en doublon, ou le nombre de champs blancs.

  • Blank count : compte le nombre de lignes blanches. Un "blanc" est composé de données textuelles non nulles contenant uniquement un espace blanc. Notez qu'Oracle ne fait pas la différence entre une chaîne vide et une valeur nulle.

  • Default value count : compte le nombre de valeurs par défaut.

  • Distinct count : compte le nombre de valeurs distinctes de votre colonne.

  • Duplicate count : compte le nombre de valeurs qui apparaissent plus d'une fois. La relation est la suivante : Duplicate count + Unique count = Distinct count. Par exemple, a,a,a,a,b,b,c,d,e => 9 valeurs, 5 valeurs distinctes, 3 valeurs uniques, 2 valeurs en doublon.

  • Null count : compte le nombre de lignes nulles.

  • Row count : compte le nombre de lignes.

  • Unique count : compte le nombre de valeurs distinctes avec une seule occurrence. Le compte est forcément inférieur ou égal au compte distinct.

Statistiques de fréquence Soundex

Les indicateurs de ce groupe utilisent l'algorithme Soundex construit dans le SGBD.

Ils indexent les enregistrements par son. Ainsi, les enregistrements ayant la même prononciation (uniquement la prononciation anglaise) sont encodés avec la même représentation pour qu'ils puissent correspondre malgré de légères différences orthographiques.

  • Soundex frequency : calcule le nombre d'enregistrements distincts les plus fréquents relativement au nombre total d'enregistrements ayant la même prononciation.

  • Soundex low frequency : calcule le nombre d'enregistrements distincts les moins fréquents relativement au nombre total d'enregistrements ayant la même prononciation.

Note

Des limitations dans l'implémentation Soundex de Teradata peuvent vous empêcher d'explorer les résultats du profiling Teradata avec cet indicateur. Pour plus d'informations, consultez la documentation sur Talend Help Center (https://help.talend.com).

Résumé statistique

Ils effectuent des analyses statistiques sur des données numériques, comme le calcul des mesures de position telles que la médiane et la moyenne, le calcul des dispersions statistiques comme l'écart interquartile et l'écart total.

  • Mean : calcule la moyenne des enregistrements.

  • Median : calcule la valeur séparant la moitié supérieure de la distribution d'un échantillon ou d'une population de la moitié inférieure.

  • Inter quartile range : calcule la différence entre le troisième quartile et le premier quartile.

  • Lower quartile (premier quartile) : calcule le premier quartile des données, à savoir les 25 % inférieurs des données.

  • Upper quartile (troisième quartile) : calcule le troisième quartile des données, à savoir les 25 % supérieurs des données.

  • Range : calcule la différence entre la valeur minimale et la valeur maximale.

Lorsque vous utilisez les indicateurs de résumé statistique pour profiler une base de données DB2, les résultats d'analyse peuvent être légèrement différents avec un moteur Java ou SQL, car les indicateurs sont calculés différemment selon le type de base de données et que Talend utilise des fonctions spéciales lors de son fonctionnement avec Java.

Statistiques de texte

Vous pouvez définir les indicateurs de statistiques de texte sur une colonne uniquement si son type de data mining est nominal. Sinon, ces indicateurs sont grisés dans la boîte de dialogue [Indicator Selection]. Pour plus d'informations concernant les types de data mining disponibles, consultez Types de data mining.

Les statistiques de texte permettent d'analyser les caractéristiques des champs textuels dans les colonnes, y compris les longueurs minimale, maximale et moyenne.

  • Min length : calcule la longueur minimale d'un champ de texte non-nul et non-vide.

  • Max length : calcule la longueur maximale d'un champ de texte non-nul et non-vide.

  • Average length : calcule la longueur moyenne d'un champ de texte non-nul et non-vide.

D'autres indicateurs de statistiques de texte sont disponibles, permettant de calculer les mêmes longueurs que les indicateurs ci-dessus, mais en prenant en compte les valeurs nulles, ou les valeurs blanches, ou les valeurs nulles et blanches.

Les valeurs nulles seront comptées comme des données de longueur 0, autrement dit la longueur minimale des valeurs nulles est 0. Cela signifie que le Minimal Length With Null et le Maximal Length With Null calculeront la longueur minimale/maximale d'un champ textuel comprenant des valeurs nulles. Ces valeurs seront considérées comme étant du texte de longueur 0.

Les valeurs blanches seront comptées comme des données de longueur 0, autrement dit la longueur minimale des valeurs blanches est 0. Cela signifie que le Minimal Length With Blank et le Maximal Length With Blank calculeront la longueur minimale/maximale d'un champ textuel comprenant des valeurs blanches.

Le même principe s'applique pour tous les indicateurs des longueurs moyennes.

Par exemple, calculez la longueur de champs textuels dans une colonne contenant les valeurs suivantes, en utilisant tous les types d'indicateurs de statistiques de texte :

Valeur

Nombre de caractères

Brayan

6

Ava

3

"_"

1

""

0

<null>

<null>

"__________"

10

Note

"_" représente une espace.

Vous obtiendrez les résultats suivants :