理工学部生のメモ

大学生の気ままなメモです。書いてあることを真に受けないでください

ベイズ統計学による母数の事後分布の推定について

従来の統計学ベイズ統計学の決定的違い

従来の統計学は母集団の母数は真の値が一定に決まっており、神のみぞ知るその値に対して意味を持った水準を人為的に定め、おおよそこれくらいにあるだろう(信頼区間)と検討をつけるといった感じで統計的推測は行われてきた。

それに対しベイズ統計学の手法は、母集団の母数はサンプリングの仕方によって変動する確率変数とみなし得られた情報によってその母数の分布を推定し、分布の頻度が最大となるような母数の値が最もらしい母数であるとしたり(MAP推定)する。つまり、従来の統計学ベイズ統計学との決定的違いは母数を一定とみなすか、確率変数とみなすかというところである。

ベイズ統計学による母数の事後分布の推定について

まず、おおもとにあるのは以下のベイズの定理であることを忘れてはならない。

ベイズの定理

データDが原因H_i(i=1,2,\cdots,n)からなると仮定するとデータDが得られたもとで原因H_iが起こる確率は


P(H_i|D)=\frac{P(D|H_i)P(H_i)}{P(D|H_1)P(H_1)+,\cdots,+P(D|H_n)P(H_n)}

で与えられる。この展開定理は条件付き確立の定義から容易に求められる。

このベイズの定理を連続確率に拡張し、原因Hの集合を母数θの集合とみなすと以下のベイズ統計学の基本公式が得られる。

ベイズ統計学の基本公式


\pi(\theta|D)=kf(D|\theta)\pi(\theta)

ただし、\pi(\theta|D)事後分布f(D|\theta)(データが従う確率分布)は尤度\pi(\theta)事前分布という。 つまり(事後分布)∝(尤度)×(事前分布)と表現できる。この式が母数の事後分布を推定するにあたって非常に重要である。

具体的にはまず、データが従う確率分布(尤度)は分かっているとしたとき、母数の事前分布を知ることが出来ればベイズ統計学の基本公式の 右辺がある程度埋まり事後分布が求められそうだが、母数の事前分布などどのようにすれば分かるのだろうかという問題が生じる。しかし、 何も情報がなければ母数はどんな値でも一様にとりうると仮定するのが自然である。(理由不十分の原則) つまり事前分布は一様分布と仮定してよい。 当然母数の出方に何らかの規則が見いだせていれば一様分布ではなく、より規則に合いそうな分布を用いればよい。このようにある種の 「職人の勘」によってモデルをフレキシブルに変化させることができるのがベイズ統計学の強みである。(それと同時に批判を受ける部分でもある) 尤度と事前分布が分かれば、あとは比例定数kを求めるだけだがこれは事後分布が確率分布であるという特性を利用すればよい。つまり、 全区間で分布を積分した値が1となることを使えばkは求めることができる。

これでめでたく母数の事後分布が求まり一件落着!と思いきや、実際に計算してみると分かるのだがある大きな壁にぶち当たる。 その壁とはkの値を求める段階での積分計算が必ずしもきれいに出来ないということである。いつもいつも尤度が正規分布、事前分布が 一様分布とは限らないので解析的に解けないパターンもありうるし、さらに言うと今母数が1変数であるという暗黙の了解のもとで 話を進めているが、母数が多変量であるような状況も当然考えられる。そうしたときに母数がn個ならば解析的に解けるかも怪しい確率密度を n重積分しなくてはならなくなる。(これはキツイ!) つまり、ベイズ統計学の基本定理をより現実に近づけようとモデルを複雑にすればするほど現実的にとてもじゃないけど解けるようなものには ならないというジレンマに襲われてしまう。そこでこのジレンマを解決するために編み出されたアルゴリズムマルコフ連鎖モンテカルロ (Markov chain Monte Carlo method:通称MCMC法)である。MCMCについてはまた日を改めてまとめる。