Détection de la fraude - Cloud - 7.3

Guide d'utilisation du Studio Talend

Version
Cloud
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

L'indicateur Benford Law (loi des nombres anormaux) se base sur l'examen de la fréquence des chiffres 1 à 9 dans des données numériques. Il est généralement utilisé en tant qu'indicateur dans des listes ou tables afin de détecter la fraude en comptabilité ou dans des dépenses.

La loi de Benford établit que, dans des listes et des tables, le chiffre 1 apparaît comme chiffre de début environ 30% du temps. Par exemple le chiffre 2 apparaît en premier dans 17% des cas et le chiffre 3 dans environ 12% des cas, etc. Des données valides et non altérées suivent cette fréquence. Des données valides et non altérées suivent cette fréquence. Une simple comparaison de la fréquence de distribution des premiers chiffres dans les données analysées et de la distribution attendue selon la loi de Benford doit mettre en relief tout résultat anormal.

Par exemple un employé qui fraude en créant et en envoyant des paiements à un vendeur fictif. Puisque les sommes de ces paiements fictifs sont imaginées et n'arrivent pas naturellement, la distribution du premier chiffre de toutes les transactions fictives et valides (mélangées) ne suit pas la loi de Benford. Imaginez également que de nombreux paiements frauduleux commencent par 2, par exemple 29, 232 or 2187. En utilisant l'indicateur de la loi de Benford pour analyser les données, vous pouvez constater que les sommes commençant par 2 sont plus fréquentes que l'occurrence habituelle de 17%.

Lorsque vous utilisez l'indicateur Benford Law, il est recommandé de :
  • vous assurer que les données numériques que vous analysez ne commencent pas par 0, puisque la loi de Benford attend un premier chiffre entre 1 et 9. Cela peut être vérifié en utilisant le modèle number > Integer values sur la colonne que vous analysez.
  • vérifier l'ordre de grandeur des données, soit en sélectionnant les indicateurs de valeurs minimale et maximale, soit en utilisant l'indicateur Order of Magnitude que vous pouvez importer de Talend Exchange. La loi de Benford tend à être plus précise lorsque les valeurs sont distribuées à travers différents ordres de grandeurs.

    Pour plus d'informations concernant l'import d'indicateurs depuis Talend Exchange, consultez Importer des indicateurs personnalisés depuis Talend Exchange.

Dans le diagramme des résultats de l'indicateur Benford Law, les chiffres 1 à 9 sont représentés par des barres. Les points sur les barres représentent la fréquence de distribution attendue du premier chiffre, selon la loi de Benford.

Voici un exemple des résultats d'une analyse après utilisation de l'indicateur Benford Law et de l'indicateur personnalisé Order of Magnitude sur une colonne total_sales.

Le premier diagramme montre que les données analysées possèdent cinq ordres de grandeur différents, c'est-à-dire qu'il y a 5 chiffres entre la valeur minimale et la valeur maximale de la colonne numérique.

Le second diagramme montre que la distribution des données (hauteur des barres) ne respecte pas la loi de Benford (valeur des points). Les différences sont particulièrement grandes entre la fréquence de distribution des chiffres des ventes et la distribution attendue par la loi de Benford. Par exemple, le modèle le plus fréquent pour les chiffres des ventes commençant par 1 est 30 %. Ces chiffres, dans les données analysées, représentent seulement 20 %. Une fraude peut être suspectée ici, les chiffres des ventes ont pu être modifiés, ou des données peuvent être manquantes.

Voici un autre exemple de diagramme de résultats d'une analyse de colonne, après utilisation de l'indicateur Benford Law.

La barre rouge nommée invalid présente le pourcentage des données analysées ne commençant pas par un chiffre. La barre 0 représente le pourcentage de données qui commencent par 0. Ces deux cas ne sont pas attendus lors d'analyse de colonnes à l'aide de l'indicateur Benford Law. C'est pour cette raison qu'ils sont représentés en rouge.

Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :

Type de données Number Text Date Autres
Type de moteur d'analyse Java SQL Java SQL Java SQL Java SQL
Fréquence de la loi de Benford