不正の検出 - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

ベンフォードの法則インジケーター(第1桁の法則)は、数値データの数字1から9の出現率を検証するものです。これはリストやテーブルから会計や経費に関する不正を察知するためのインジケーターとして使用されます。

ベンフォードの法則では、リストやテーブルにおいて、数字1が1桁目に表れる確率は約30%であるとされています。大きい数字が1桁目に表れる頻度は低く、たとえば2という数字は17%、3という数字は12%となっています。有効で改ざんされていないデータであれば、この出現頻度に沿ったものとなるはずです。分析したデータにおける第1桁の頻度分布とベンフォードの法則で予想される分布を比較することで異常な結果を識別できます。

たとえば、従業員が架空の業者を作り出して送金する不正を行ったとします。これら架空の支払の金額は自然に発生したものではなく、作り出されたものなので、架空の取引および正当な取引すべて(両者混合)の第一桁の分布はベンフォードの法則に則したものではなくなります。さらに、これら不正な支払の多くが第1桁に2を持っていたとします(29、232、2187など)。ベンフォードの法則インジケーターを使用してこのようなデータを分析すると、第1桁に2を持つ金額が、通常の出現パターンである17%よりも頻繁に出現していることが分かります。

ベンフォードの法則インジケーターを使用する際は、次のことが勧められています。
  • 分析する数値データが0で始まっていないことを確認します。ベンフォードの法則では第1桁が1から9の範囲であることが予想されています。これは、分析するカラムに[number] (数) > [Integer values] (整数値)パターンを使用することで確認できます。
  • 最小値インジケーターまたは最大値インジケーターを選択してデータの桁数を確認します。また、 Talend Exchangeからインポートできる [Order of Magnitude] (桁数)インジケーターを使うことでも確認できます。これは、ベンフォードの法則は値が複数の桁数に分散している時により正確になる傾向があるためです。

    Talend Exchangeからインジケーターをインポートする方法の詳細は、Talend Exchange からユーザー定義インジケーターをインポートするをご覧ください。

ベンフォードの法則インジケーターの結果図では、1から9の数字が棒で表されており、棒の高さが分析したデータにおける第1桁の頻度分布をパーセントで表しています。点はベンフォードの法則に従った予想される第1桁の頻度分布を表しています。

以下は、ベンフォードの法則インジケーターを使用した分析の結果と、total_salesカラムにユーザー定義インジケーターのOrder of Magnitude (桁数)を使用した例です。

最初の図は分析したデータに5桁の範囲にわたるバリエーションがあることを示しており、数値カラムの最小値と最大値の間に5桁の差があることを示しています。

2番目の図は、データの実際の分布(棒の高さ)がベンフォードの法則(点の値)に則していないことを示しています。売上額の頻度分布とベンフォードの法則で予想される分布の間には大きな相違が見られます。たとえば、1で始まる売上額の通常の出現パターンは30%ですが、分析されたデータでは20%しかないことが分かります。不正の可能性が疑われます。何者かによって売上額が変更されたかデータが一部存在しない可能性があります。

以下は、ベンフォードの法則インジケーターを使用したカラム分析結果図の別の例です。

[Invalid] (無効)というラベルの付いた赤い棒は分析されたデータのうち、数字で始まっていないものの割合を表しています。0バーは0で始まるデータの割合を示します。どちらもベンフォードの法則インジケーターを使ったカラム分析では予想されていないものであるため、赤で表されています。

どのデータベースでも選択できるインジケーターを次のテーブルに示します。

データ型 数字 Text Date その他
分析エンジンのタイプ Java SQL Java SQL Java SQL Java SQL
ベンフォードの法則