不正の検出 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

ベンフォードの法則インジケーター(第1桁の法則)は、数値データの数字1から9の出現率を検証するものです。これはリストやテーブルから会計や経費に関する不正を察知するためのインジケーターとして使用されます。

ベンフォードの法則では、リストやテーブルにおいて、数字1が1桁目に表れる確率は約30%であるとされています。大きい数字が1桁目に表れる頻度は低く、たとえば数字2は17%、数字3は12%となっています。正当な、改ざんされていないデータはこの出現頻度に沿ったものとなるはずです。分析したデータにおける第1桁の頻度分布とベンフォードの法則で予想される分布を比較することで異常な結果を識別することができます。

たとえば、従業員が架空の業者を作り出し、送金を行うという不正を行ったとします。これら架空の支払の金額は自然に発生したものではなく、作り出されたものなので、架空の取引および正当な取引すべて(両者混合)の第一桁の分布はベンフォードの法則に則したものではなくなります。さらに、これら不正な支払の多くが第1桁に2を持っていたとします(29、232、2187など)。ベンフォードの法則インジケーターを使用してこのようなデータを分析すると、第1桁に2を持つ金額が、通常の出現パターンである17%よりも頻繁に出現していることが分かります。

ベンフォードの法則インジケーターを使用する際は、次のことが勧められています。
  • 分析する数値データが0で始まっていないことを確認します。ベンフォードの法則では第1桁が1から9の範囲であることが予想されています。これは、分析するカラムに[number] (数) > [Integer values] (整数値)パターンを使用することで確認できます。

  • 最小値インジケーターまたは最大値インジケーターを選択してデータの桁数を確認します。また、Talend Exchangeからインポートできる [Order of Magnitude] (桁数)インジケーターを使うことでも確認できます。これは、ベンフォードの法則は値が複数の桁数に分散しているときにより正確になる傾向があるためです。Talend Exchangeからインジケーターをインポートする方法について詳しくは、Talend Exchangeからユーザー定義インジケーターをインポートするを参照して下さい。

ベンフォードの法則インジケーターの結果図では、1から9の数字が棒で表されており、棒の高さが分析したデータにおける第1桁の頻度分布をパーセントで表しています。点はベンフォードの法則に従った予想される第1桁の頻度分布を表しています。

以下は、ベンフォードの法則インジケーターを使用した分析の結果と、total_sales (総売上)カラムにユーザー定義インジケーターのOrder of Magnitude (桁数)を使用した例です。

最初の図は分析したデータに5桁の範囲にわたるバリエーションがあることを示しており、数値カラムの最小値と最大値の間に5桁の差があることを示しています。

2番目の図は、データの実際の分布(棒の高さ)がベンフォードの法則(点の値)に則していないことを示しています。売上額の頻度分布とベンフォードの法則で予想される分布の間には大きな相違が見られます。たとえば、1で始まる売上額の通常の出現パターンは30%ですが、分析されたデータでは20%しかないことが分かります。不正の可能性が疑われます。何者かによって売上額が変更されたか一部のデータが存在していない可能性があります。

以下は、ベンフォードの法則インジケーターを使用したカラム分析結果図の別の例です。

[Invalid] (無効)というラベルの付いた赤い棒は分析されたデータのうち、数字で始まっていないものの割合を表しています。また、0の棒は、0で始まるデータの割合を示しています。どちらも、ベンフォードの法則インジケーターを使用してカラムを分析する際には予想されていないものであるため、赤で表されています。

カラムの分析について詳しくは、データベースカラムでの基本分析の作成を参照して下さい。