Python、機械学習

確率の基礎をわかりやすく(中心極限定理、大数の法則の意味を理解する)

確率の基礎として、確率変数や確率分布の意味をこちらの記事で書きました。

確率の基礎をわかりやすく(確率変数、確率分布の意味)確率論を学ぶ上で、確率のイメージをつかむことは重要です。 ここでは、確率の意味合いについて説明します。 三河屋のサブちゃんで確率を考...

今回は続編として、反復試行の説明から中心極限定理や大数の法則に話を進めます。

簡単にいうと、中心極限定理、大数の法則とは、我々が当たり前のように使っているこちらの式のよりどころになっているものです。

標本平均 ~N(母平均、母分散/n)

確率分布を数字で表現した「指標」のことを母数という

確率変数は、毎回毎回いろんな値を取ります。どんな値をとりそうかは、確率分布を見れば分かりますが、グラフだとパッと比較しにくい・・・。いろいろな確率変数があったときに、どっちが大きいのか小さいのか、といった比較がやりにくいです。

そこで、確率分布を何か一つの数字と言いますか、指標で表現できれば、非常に比較がしやすくなります。

このような指標を「母数」といいます。母数には、平均(期待値)や分散といったものがあります。

平均(期待値)

確率分布の中心を表したものが期待値です。

コインですと期待値は0.5、サイコロだと期待値は3.5になります。コインやサイコロは離散値のため、実際に0.5や3.5という値はとらないのですが、確率分布の中心をうまく捉えています。

期待値はこうやって出します。事象×確率を全部足せば良いです。

コインの表裏の期待値=1×(1/2) + 0×(1/2) = 0.5

サイコロの目の期待値=1×(1/6) + 2×(1/6) + 3×(1/6) + 4×(1/6) + 5×(1/6) + 6×(1/6) = 3.5

平均と期待値の違い

確率変数は平均と同じようなものです。ただし、平均は実際のデータに基づいて計算するものです。例えば、コインを1000回投げて、表が500回、裏が500回出たら、

コインの表裏の平均 = (1+1+1+・・・・+0+0+0・・・)/1000 = 0.5

と計算できます。値は期待値と同じなのですが、データから計算しているところが異なります。期待値なら、データがなくとも確率が分かっていれば計算できます。

例えば、コインの場合ですと、コイン投げをしたデータがなくとも、表が出る確率は50%、裏が出る確率は50%だと分かっていれば期待値をスッと計算できます。

「期待値」と「平均」は、確率から得るか、データから得るかの違いはあるけど値は同じだよ、いう認識です。

繰り返しやって数字を足し合わせる試行が反復試行

これまで取り扱った「試行」は、何かを1回やる、というものでした。ここでは何かを何回もやって足し合わせる、という「試行」を取り扱います。

コインを投げては1(表)か0(裏)かを記録する、を繰り返します。そして、全部足し合わせます。10回やったとして、表が5回、裏が5回なら「5」になります。

このケースにおける、試行、確率変数、標本を整理してみます。

コインをn回投げることが「試行」です。n回の結果を全て足し合わせた値をXとすると、Xは0~nのいずれかになります。

全て合算した値Xが「確率変数」、0~nが事象です。そして、実際にn回コインを投げた後の合算値が「標本」です。

何度も行って足し合わせる、という話になると、「確率変数」「事象」「標本」の定義が変わってくることがポイントです。1回の試行の話と混同しやすいのですが、しっかり区別する必要があります。

このように、何度も行って足し合わせる作業を1試行としたものを「反復試行」といいます。

中心極限定理

コインをn回投げて、n回の結果を全て足し合わせた値(確率変数X)の確率分布は、「二項分布」という型で描けます。

二項分布は、コインのように、1回あたりの取り得る数が2パターンしかない場合のものです。

実は、コインを投げる回数を増やすと、確率変数Xは「正規分布」という型に近づいていくことが知られています。n→∞で、二項分布は正規分布になるということです。

これ、コインの表裏の足し算のような二項分布だけでなく、どんな確率分布であっても、回数の多い試行では正規分布に近づきます。サイコロの目の足し算でも、伸びの値でも何でもです。もとの分布が何であれ、何回もやって出た数字の合算値を見るケースでは、合算値の確率分布は正規分布で描けるようになります。

これが中心極限定理です。

もう一度繰り返します。何かをやって数字を出す、またやって数字を出す、最後に数字を合算する。こういう試行における合算値の確率分布は正規分布になります。これが中心極限定理です。

その平均、分散は何になるのか?

平均

平均は、1回やって数字を出す際の期待値にnをかけたものになります。

コインなら0.5nになりますし、サイコロなら3.5nになります。

平均がこのようになることを大数の法則といいます。

分散

分散は、1回やって数字を出す際の分散にnをかけたものになります。

コインなら0.25nになりますし、サイコロなら2.92nになります。

再び、1回やって数字を得る試行に話を戻す

ここまで、数字を得る作業を何回かやって合算する試行について見てきました。ここからは再び、1回やって数字を得る試行に話を戻します。

これまでの流れはこうでした。

①「コインをn回投げて合算値を出す試行を1回行うと、標本が1個得られます。」

見方を変えましょう。

②「コインを1回投げるという試行をn回行うと、標本がn個得られます。」

この2つ、やっていることは同じですが、試行の定義を変えたため、標本の捉え
方も変わりました。②は、1回やって数字を得る試行ですね。

続けて、中心極限定理を考えてみます。

①「得られる1個の標本(つまり合算値)は、正規分布する」

②「得られるn個の標本(1回の値)の和は、正規分布する。これをnで割ったも
の、つまり標本の平均も、正規分布する。」

1回やって数字を得る試行では、標本平均が正規分布することがわかりました。

では、どんな正規分布になるのでしょうか。平均と分散は何?

①「平均:1回あたりの期待値×n、分散:1回あたりの分散×n」

②「平均:1回あたりの期待値、分散:1回あたりの分散/n」

①の確率変数をnで割ったものが②の確率変数になるため、上のようになります。

nで割ると平均は/n、分散は/n2になる理由がわからない方は、こちらの公式を見て下さい。

期待値(E)と分散(V)の計算式ここでは、期待値(E)と分散(V)に関する計算式を備忘録として並べておきます。 いずれも、教科書や参考書に載っているものです。この式を...

②の場合、1回あたりの期待値とは、1回コインを投げる「試行」そのものの期待値です。1回あたりの分散も、1回コインを投げる「試行」そのものの分散です。

そして、「試行」そのものの期待値、分散はそれぞれ母平均、母分散と呼びます。コインを1回投げるという「試行」においては、母平均0.5、母分散0.25です。

くどくなってしまいましたが、標本平均は、N(母平均、母分散/n)になるということです。そして、標本の数nが多い場合は、標本平均は母平均にほぼ等しくなります。

中心極限定理のうれしいところ

中心極限定理のうれしさって何でしょうか?

何回もやって合算値を求める試行の場合

計算が簡単で楽になることです。

回数nが多い試行では、計算が煩雑になり大変です。コイン投げだと、投げる回数が多い場合は真面目に二項分布を計算すると大変な計算量になります。今はコンピュータの性能が上がったので問題ないですが、昔は大変だったと思います。

中心極限定理により二項分布を正規分布で近似すると、平均も分散もすぐ出せるので確率分布がすぐ描けます。

とはいえ、中心極限定理のうれしさを享受する場面のほとんどは、次の内容になると思います。

1回だけやる試行の場合

母集団の詳細が分からなくても、標本たちから母平均が見積もれることです。

統計学の目的は、標本から母集団を推定することだったりします。ですので、実際に得られたデータ(標本)から、母集団の情報の一つである母平均を推定することはよくやられます。ゆえに、それを実現してくれる中心極限定理はめちゃくちゃありがたい定理です。

標本平均を計算すれば、その値がほぼほぼ母平均となります。標本の数(サンプルサイズ)が多ければ、標本平均と母平均はより一致します。

逆に、標本の数(サンプルサイズ)が小さければ、標本平均と母平均の一致度は下がり、少々のズレが生じ得ます。どれくらいズレ得るかは、母分散/nを見ればわかります。これが大きいほど、ズレ得る幅が大きいということです。

(母分散/n)1/2を、標準誤差とよびます。

標本平均は、正規分布する。その平均は母平均、分散は母分散/nである。これを数式的に表すと、次のようになります。

標本平均 ~N(母平均、母分散/n)

標本平均を標準化すると、次のようになります。

(標本平均-母平均)/(母分散/n)1/2  ~N(0,1)

±2σ(約95%)なら、(標本平均-母平均)/(母分散/n)1/2は-2から2に収まります。よって、
-母平均は-標本平均-2(母分散/n)1/2から-標本平均+2(母分散/n)1/2に収まる、つまり
母平均は標本平均-2(母分散/n)1/2から標本平均+2(母分散/n)1/2に収まることになります。

95%の割合で標本平均±2標準誤差の範囲に収まるよ、というふうにズレを表せます。

ここ、重要なので今一度整理してみます。

・標本平均が分かれば、母集団の情報がなくとも母平均を次の式で見積ることができる。
・母平均=標本平均±2(標準誤差)  *±2σの場合
・標準誤差とは、(母分散/n)1/2のこと

一般に、標本の数が30以上なら母分散≒標本分散とみなすことが多いようです。

いずれにしても、標本nが多いと分散がほぼゼロになり、母平均はほぼほぼ標本平均に一致します。これも大数の法則です。

平均だけにフォーカスしたのが大数の法則、ばらつきにもフォーカスしたのが中心極限定理。大数の法則をより細かく説明したものが中心極限定理だと言えそうです。