Python、機械学習

統計の「推定」「検定」の方法を一覧表にまとめてみた(統計検定2級)

統計解析において、統計量の「推定」や「検定」は重要な分野です。

手持ちのデータから汎用性のある法則を導こうとするのが「推定」で、こんな法則になってるんじゃないだろうかと仮説を立てて、手持ちのデータを使って検証するのが「検定」です。

手持ちのデータ(標本)から汎用性のある法則、全体像(母集団)を見ようとする帰納的アプローチは統計モデリングや機械学習のベースであり、ここを外してこれらを理解するのは難しいと思います。

また、推定や検定は統計検定2級における出題範囲のメインでもあります。

ただし、推定や検定の種類はいくつかあるにも関わらず、どのように使い分けたらいいのか分からなくなることもしばしば。いい具合にまとまったチートシートも見つからない。

ということで、推定や検定の方法の使い分け方を表にまとめてみました。

まずはパラメータの整理

標本と母集団に関するパラメータをこちらにまとめておきます。

母集団が1つの場合

母集団が1つの場合は、次のようになります。

母平均μ、母分散σ2

母平均μが関心の的であれば、正規分布かt分布を使います。t分布を使った検定をt検定といいます。

一方、母分散σ2が関心の的であれば、カイ二乗分布を使います。カイ二乗分布を使った検定をカイ二乗検定といいます。

なお、表中のH0は帰無仮説、H1は対立仮説を意味します。

母比率R

母比率が関心の的であれば、次のようになります。

母集団のうち特定のカテゴリーに属する割合を知りたいときに使います。例えば、コインの表が出る割合、クラスの女子の割合、のようなケースです。

母集団のうち、カテゴリー1の割合はこんだけ、カテゴリー2の割合はこんだけ、といったように複数のカテゴリーを扱う場合は、適合度検定を使います。例えば、ジャンケンのグー、チョキ、パーそれぞれの出る割合や、サイコロでそれぞれの目(1の目~6の目)が出る割合を検定するケースです。

なお、適合度検定では比率ではなく、実際の数を使います。また、自由度n-1のところは、ジャンケンなら3-1=2、サイコロなら6-1=5となります。サンプル数nとは異なるので要注意です。

母集団が2つの場合

母集団が2つの場合は、次の表のようになります。

2つの母集団の母平均μの違いが関心の的であれば、正規分布かt分布を使います。

母分散σ2の差が関心の的であれば、F分布を使います。

F分布というのは、2つの分散の比率に関する分布です。

母比率R

母比率が関心の的であれば、次のようになります。

母集団が3つ以上の場合

母集団が3つ以上の場合は「分散分析」と呼ばれます。

少々込み入ってはいますが、表にまとめると次のようになります。分散分析ではF分布を活用します。

まとめ

関心のある問題が母集団1つなのか、2つなのか、はたまた3つなのかを主軸に、統計解析の手法を整理してみました。

正規分布を使って分析する手法については、中心極限定理の理屈が分かっていれば理解できるかと思いますが、t分布、カイ二乗分布、F分布については、巨人の肩に乗ったつもりで、「とりあえずこれを使うと解けるんだ」と思っておくとよいかなあと思います。

あとは、自分が出くわした問題が上記の表のどれで解けるのかを見極めることができればGoodだと思います。