Détection de la fraude - 7.1

Guide utilisateur de Talend Data Services Platform Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Services Platform
task
Création et développement
EnrichPlatform
Studio Talend

L'indicateur Benford Law (loi des nombres anormaux) se base sur l'examen de la fréquence des chiffres 1 à 9 dans des données numériques. Il est généralement utilisé en tant qu'indicateur dans des listes ou tables afin de détecter la fraude en comptabilité ou dans des dépenses.

La loi de Benford établit que, dans des listes et des tables, le chiffre 1 apparaît comme chiffre de début environ 30% du temps. Par exemple le chiffre 2 apparaît en premier dans 17% des cas et le chiffre 3 dans environ 12% des cas, etc. Des données valides et non altérées suivent cette fréquence. Des données valides et non altérées suivent cette fréquence. Une simple comparaison de la fréquence de distribution des premiers chiffres dans les données analysées et de la distribution attendue selon la loi de Benford doit mettre en relief tout résultat anormal.

Imaginez, par exemple, un employé qui fraude en créant et en envoyant des paiements à un vendeur fictif. Puisque les sommes de ces paiements fictifs sont imaginées et n'arrivent pas naturellement, la distribution du premier chiffre de toutes les transactions fictives et valides (mélangées) ne suit pas la loi de Benford. Imaginez également que de nombreux paiements frauduleux commencent par 2, par exemple 29, 232 or 2187. En utilisant l'indicateur de la loi de Benford pour analyser les données, vous pouvez constater que les sommes commençant par 2 sont plus fréquentes que l'occurrence habituelle de 17%.

Lorsque vous utilisez l'indicateur Benford Law, il est recommandé de :
  • vous assurer que les données numériques que vous analysez ne commencent pas par 0, puisque la loi de Benford attend des chiffres de 1 à 9. Cela peut être vérifié en utilisant le modèle number > Integer values sur la colonne que vous analysez.
  • vérifier l'ordre de grandeur des données, soit en sélectionnant les indicateurs de valeurs minimale et maximale, soit en utilisant l'indicateur Order of Magnitude que vous pouvez importer de Talend Exchange. La loi de Benford tend à être plus précise lorsque les valeurs sont distribuées à travers différents ordres de grandeurs. Pour plus d'informations concernant l'import d'indicateurs de Talend Exchange, consultez Importer des indicateurs personnalisés depuis Talend Exchange.

Dans le diagramme des résultats de l'indicateur Benford Law, les chiffres 1 à 9 sont représentés par des barres. Les points sur les barres représentent la fréquence de distribution attendue du premier chiffre, selon la loi de Benford.

Voici un exemple des résultats d'une analyse après utilisation de l'indicateur Benford Law et de l'indicateur personnalisé Order of Magnitude sur une colonne total_sales.

Le premier diagramme montre que les données analysées possèdent cinq ordres de grandeur différents, c'est-à-dire qu'il y a 5 chiffres entre la valeur minimale et la valeur maximale de la colonne numérique.

Le second diagramme montre que la distribution des données (hauteur des barres) ne respecte pas la loi de Benford (valeur des points). Les différences sont particulièrement grandes entre la fréquence de distribution des chiffres des ventes et la distribution attendue par la loi de Benford. Par exemple, le modèle le plus fréquent pour les chiffres des ventes commençant par 1 est 30 %. Ces chiffres, dans les données analysées, représentent seulement 20 %. Ces chiffres, dans les données analysées, représentent seulement 20 %.

Voici un autre exemple de diagramme de résultats d'une analyse de colonne, après utilisation de l'indicateur Benford Law.

La barre rouge nommée invalid présente le pourcentage des données analysées ne commençant pas par un chiffre. Et la barre 0 représente le pourcentage de données qui commencent par 0. Ces deux cas ne sont pas attendus lors d'analyse de colonnes à l'aide de l'indicateur Benford Law.

Pour plus d'informations concernant l'analyse de colonnes, consultez Créer une analyse simple sur une colonne d'une base de données.