Python、機械学習

確率の基礎をわかりやすく(確率変数、確率分布の意味)

確率論を学ぶ上で、確率のイメージをつかむことは重要です。

ここでは、確率の意味合いについて説明します。

三河屋のサブちゃんで確率を考える

サザエさんに出てくる三河屋のサブちゃんが引きこもりだったら、常に自宅にいることになります。いつ見ても同じ場所(自宅)にいますので、サブちゃんがいる場所は確定的だといえます。

図で書くとこんな感じです。空間の1点にとどまっているイメージです。

一方、普段のサブちゃんはいろんな家を回って注文を聞いたり商品を運んだりしています。だいたいこの周辺を回っているはずだけど、あるときはあっち、あるときはこっちと、見る度に場所が変わります。サブちゃんのいる場所は確率的だと言うことです。

これを一つの図で表すと、次のような半透明の範囲(ぼやっとした赤い玉)になります。

[余談] 量子力学の話にもつながる ~電子軌道、波動関数~

少し話が逸れますが、これは電子の話と共通します。電子は原子の中をぐるぐると動き回っていて、まるでサブちゃんのようです。上と同じように、電子についてもぼやっとした赤い玉を描けます。これを電子雲や電子軌道といいます。そして、このぼやっとした赤い玉を数式で表したものが波動関数です。波動関数は、シュレディンガー方程式を解くことで得られます。

確率変数

確定的だと、サブちゃんの場所を示すXは定数になります。

確率的だと、Xは変数になります。サブちゃんを探す度にXが変わるからです。確率論や統計学では、Xのことを「確率変数」といいます。

試行、標本、事象

そして、サブちゃんを探すというアクションを「試行」、実際に探して見つけたときのサブちゃんの場所を「標本」といいます。

サブちゃんが存在し得る場所の範囲が「事象」です。要は、ぼやっとした赤い玉の範囲のことです。

まとめます。

確率変数Xを求める作業が「試行」、確率変数Xが取り得る値の範囲が「事象」、実際に試行して得られた確率変数Xの値が「標本」です。

確率変数は、一般的な変数とは概念が異なる

確率変数は、一般的な変数とは概念が異なりますので注意が必要です。

説明変数、目的変数といった一般的な変数は、さまざまな値をとれる、さまざまな値を代入できるというものでした。

確率変数は、理想的には1つの数字であってほしいものを、あえてぼかしたものを指します。サブちゃんみたいにその時々で微妙に場所が変わるような場合は、サブちゃんの住所をどこか1点に固定するのには無理がある。じゃあ、ぼやっとした赤い玉のような範囲をもった様を1つの記号Xで表そう。Xはその時々で微妙に数値が変わるので、確率”変数”と呼ぼう、という感じです。

一般的に言う変数と確率変数は別物だと認識しておくと、学習の進みがよくなります。

コイン、サイコロ、身長の例ではこうなる

確率変数、試行、事象、標本について、参考書によく出てくるコイン、サイコロ、身長を例に考えてみます。

コイン

コインを投げることが「試行」です。コインを投げて出る面をXとすると、出る面Xは表、裏のどれかになります。数字で表現するため、1(表)、0(裏)とすることもあります。

出る面Xが「確率変数」、1(表)、0(裏)が事象です。実際にコインを投げて出た面が「標本」です。

サイコロ

サイコロを投げることが「試行」です。サイコロを投げて出る目をXとすると、サイコロの目Xは1, 2, 3, 4, 5, 6のどれかになります。

サイコロの目Xが「確率変数」、1, 2, 3, 4, 5, 6が「事象」です。実際にサイコロを投げて出た目が「標本」です。

クラスの生徒の身長

クラスの誰かを呼び出して身長を測ることが「試行」です。測定した身長をXとすると、身長Xは0cmから∞cmのどれかになります。

身長Xが「確率変数」、0cm~∞cmが事象です。実際にクラスの誰かを呼び出して測った身長が「標本」です。

なお、普通はどんなに身長が高くても200cmくらいですので、身長Xは0cmから200cmに収まるでしょう。

[おまけ] プラスチックの伸び

プラスチックをダンベル状試験片に打ち抜いて、引張試験機で引っ張ることが「試行」です。測定した伸びの値をXとすると、Xは0%から∞%のどれかになります。

測定した伸びの値Xが「確率変数」、0%~∞%が事象です。実際に引っ張って得た伸びの値が「標本」です。

ここでようやく「確率」の話

確率変数は、さまざまに取り得る事象のうちのどれかになります。それぞれの事象の出やすさが「確率」です。コインなら、表という事象の出やすさは1/2です。サイコロなら、1という事象の出やすさは1/6です。

コイン、サイコロはとびとびの値(離散値)をとる試行ですが、身長と伸びは連続値をとる試行です。

連続値の場合は、例えば、160~165cmの範囲の事象となる確率、100~200%の範囲の事象となる確率、という表現になります(数学上の問題で)。160.0cmピンポイントの確率という考え方はしません。

確率変数を可視化したものが「確率分布」

さきほどの「ぼやっとした赤い玉」のように、確率変数を可視化したものを確率分布といいます。ぼやっとした赤い玉では、確率の大小を赤の濃淡で示しました。

よく見かける確率分布の絵は、横軸に確率変数、縦軸に確率をとってプロットしたものです。

確率変数が離散値の場合は棒グラフ、連続値の場合は線のグラフになります。

グラフでなくても、表形式でも別に構いません。

確率分布の形には型(モデル)がある

この確率分布の形にはさまざまな型があります。この型のことを確率モデルと呼びます。「ぼやっとした赤い玉」には型があるということです。

確率モデルは数式で表すことができます。数式中のパラメータを変えることで、実際のさまざまな確率分布の形に合わせ込むことができます。パラメータを調整して実際の確率分布に合わせ込んだものを統計モデルと呼びます。

コインのように、確率変数の取り得る事象が2つだけのものは、「ベルヌーイ分布」という型で確率分布を描けます。

サイコロのように確率変数が取り得る事象が3つ以上あるものは、「マルチヌーイ分布」という型で確率分布を描けます。

ちゃんとしたコインやサイコロは、それぞれの事象が出る確率が等しいです。事象の数によらず、確率が等しい場合は「一様分布」にという型で確率分布を描けます。

ちゃんとしたコインの確率分布はベルヌーイ分布で表現できるし、一様分布でも表現できます。

逆に、表と裏のどちらかが異様に出やすい”いかさまコイン”だと、ベルヌーイ分布では表現できますが、一様分布では表現できません。

身長や伸びは、「正規分布」で確率分布を描けます。

続編はこちら

続編はこちらです。中心極限定理の話に入っていきます。

確率の基礎をわかりやすく(中心極限定理、大数の法則の意味を理解する)確率の基礎として、確率変数や確率分布の意味をこちらの記事で書きました。 https://punhundon-lifeshift.com...