ベンフォードの法則とは
[ad#top]
ベンフォードの法則(Benford’s law)は、よく考えると、当然なのですが、意外に知られていないと思います。
どんな法則なのか簡単に示しますと、自然界で使われている数の先頭は「1」が多く(約3割)使われているという法則です。
もっと、言い切ってしまうと、数字(1~9)でもっともよく使われているのは「1」から始まる数で、一番使われない数が「9」から始まる数だということです。
さらに大雑把位にいって乗法的な数がランダムに分布している数の体系で「1」から始まる数が多いです。
先頭の数の出現率は下記の表ように計算されます。
先頭の数字 | 出現率 |
---|---|
1 | log(2)≒30.1% |
2 | log(3/2)≒17.6% |
3 | log(4/3)≒12.5% |
4 | log(5/4)≒9.7% |
5 | log(6/5)≒7.9% |
6 | log(7/6)≒6.7% |
7 | log(8/7)≒5.8% |
8 | log(9/8)≒5.1% |
9 | log(10/9)≒4.6% |
logの底は10です。
「1」で始まる数が、2位の「2」で始まる数を引き離してダントツトップです。2倍とはいきませんが2倍弱です。
これによると、3割の数は1から始まっていることになります。
ベンフォードの法則を直感的に把握する
ベンフォードの法則を正確に述べようとすると結構難しいですが、それが成立する理由は、下記の例から直感的(感覚的)に納得できるはずです。
1から順番に採番している数を考えてみてください。最初に1がでてきて、次に2が出てきます。この時点で1がさらけ出される確率が高まっています。1の位が繰り上がると、10になりますが、ここから10回連続で「1」が先頭に来ます。1から20までの数で先頭が1になっているのを数えると、{1,10,11,12,13,14,15,16,17,18,19}の11個で実に半分以上が「1」で始まる数です。
30までの数を扱うようになると、こんどは一気に2の出現率が高まります。そして、順番に3の出現率、4,5,・・・ときて、最後に9の出現率が高まり、3桁の数に桁があがります。3桁に突入すると、これまた「1」で始まる数のオンパレードとなり「1」で始まる数が莫大に増えます。
このように、なんらかの上限が決まっていて一様に出現するような数の体系では1が非常に良く出現するわけです。
例えば、500以下の自然数がランダムに出現しているとすると、先頭が6,7,8,9で始まる率がかなり少なくなるのは確率計算すれば当然のことだとわかるはずです。
川の長さなど自然界の数はこの法則に従って数が分布しているため、実際「1」で始まる川の長さが多いそうです。
また、会員番号など、1から順番に採番しているのであれば「1」で始まる番号の持ち主は多いはずで、これもベンフォードの法則の対象と考えて良いはずです(1が多いという意味で)。
ただし、体重のように、数の出現が一様でもなく(母集団にもよるでしょうが分布が山なり)、さらに人間の大きさの特性から「1」はともかく、「2」や「3」があまり出現しない数の体系では適用されません。なんでもかんでもこのベンフォードの法則に当てはまっているわけではないということになります。
ベンフォードの法則の応用
しくみがわかれば、ベンフォードの法則の応用のしかたも自然とわかってくるはずです。実際、会計データの一覧にこの法則を応用しているそうです。
4桁の暗証番号など上限がある数で一様分布しているはずの数の体系ではベンフォードの法則は適用されません。先頭0を含むという理由もありますが、ランダムに選択しているという仮定のもとではやはり一様分布です。
また、人為的につくりだされる暗証番号は、心理要因なども分布に影響しますので一様分布ともいえないです。このように、数の体系がどのように生み出されるかをよく理解しなければ、ベンフォードの法則は応用できません。
もっとも、上限やそれらの数の分布状況がはっきりしているのであれば、確率統計的に処理することで出現率も含めてずっと正確に算出できます。
ベンフォードの法則は、上限があるようなないような、漠然とした数の体系の出現率を算出するのに適しているといえます。
自然科学への応用
さて、自然科学でもいろいろな数を扱います。素数の分布など上限がない数の分布についても応用されているようで、実際、それを研究した人がいて、「素数の分布はベンフォードの法則に従っている」という報告があるそうです。
素数はいくらでも大きくなるので、どのような尺度をつかって出現率を計算したのかわかりませんが、小さな素数について検証するのは、コンピュータで手軽にできるので、いつかその意味合いを考えてみたいです。
ちなみに、100万までの素数で集計してみると、
素数の先頭数字 | 出現率 |
---|---|
1 | 12.2% |
2 | 11.6% |
3 | 11.4% |
4 | 11.1% |
5 | 11.0% |
6 | 10.8% |
7 | 10.7% |
8 | 10.6% |
9 | 10.5% |
一般のベンフォードの法則にみるように顕著ではないですが、先頭が1で始まる素数の出現率はわずかながら高くなっていました。
いくらかの偏りは認められますが、ベンフォードの法則といえるのかどうか、これからはなんとも言えない結果です。
不正選挙検証への応用
[ad#foot]
投票数はベンフォードの法則に従うと考えられます。AKB総選挙などの選挙でも不正があったのかどうか分析された実績があるようです。
しかし、サンプル数が少ない場合はベンフォードに従うことをあてにするのは危険です。つまり、例えば投票先が5人しかないのであれば、投票数サンプルは5件になります。投票数5件だけでは分析できるわけがありません。これが仮に64人であっても信憑性は乏しいと思います。もし、不正投票に応用するのなら、投票桁数が多ければ、2桁目、3桁目もしらべたり、都道府県別(市町村別)の投票数の先頭の数を調べるなど、母数を増やすなどの工夫が必要です。投票区画をかなり鼓膜小選挙区にわけ、それぞれの小選挙区の投票数をデータとして使えば、1ではじまる投票数が増えてくると考えられます。
またΧ自乗検定(カイ二乗検定)と本法則はまったく別の理論(考え方)ですが、サンプル数が少ないデータを統計的に処理するのであれば、Χ自乗検定を応用することももちろん有用です。