ベイジアン仮説検定とSavage-Dickey法

今回はベイジアン仮説検定Savage-Dickey法について取り上げます。

ベイジアン仮説検定は、従来の頻度論に基づく考え型とは異なるベイズの考え方を用いた仮説検定です。一般的な仮説検定には無いメリットを持っており、近年注目されています。

Savage-Dickey法は、以前の記事で紹介したベイズファクターを簡単に求めるための手法の一つです。この手法が適用できる場面は、比較対象となる2つのモデルがネストされた関係にある場合(後述)に限られるのですが、これは多くの一般的な仮説検定の枠組みへ応用できる条件であることから、ベイジアン仮説検定のための重要な手法とされています。

参考記事を以下に列挙します。

ベイジアン仮説検定

ベイジアン仮説検定は、文字通りベイズの考え方を用いた仮説検定です。そしてこれは以前の記事で紹介したベイズファクターを用いた検定になります。

◆ベイズファクター 2つの異なるモデル$M_0$、$M_1$を考えたとき、ベイズファクター$BF_{01}$は2つの異なるモデルの周辺尤度の比として定義される。 $$ BF_{10} = \cfrac{p(x^n | M_0)}{p(x^n |M_1)} \tag{1} $$ ここで、$p(x^n | M)$はモデル$M$における周辺尤度、$x^n$は$n$組の確率変数$X^n$からの実現値である。

周辺分布$p(x^n |M)$は、事前分布と事後分布の積をモデル$M$のパラメータについて周辺化消去した値であり、$x^n$の同時確率密度とみなせることから、モデルの平均的な説明力の高さの指標となるのでした。そしてベイズファクターは2つの比較モデルの周辺尤度の比較をしているのでしたな。

ところで、従来の仮説検定では帰無仮説と対立仮設を設定することから始まりますが、ベイズファクターを用いた仮説検定では帰無仮説と対立仮設の設定はどうすればよいのかナ?

帰無仮説と対立仮説

ここで仮説検定の手順について整理します。

◆仮説検定の手順
  1. 棄却したい仮説として、帰無仮説($H_0$)を、帰無仮説と対立する仮説として対立仮説($H_1$)を設定する

  2. 検定統計量を計算する

  3. $H_0$が正しいと仮定したとき、検定統計量が漸近的に所定の分布に従うことを用いて、観測事象よりも極端な事象が起きる確率(p値)を求める

  4. p値を有意水準と比較し、帰無仮説を棄却するかどうかを決定する

帰無仮説には、例えば平均値の差の検定の場合、2組の母集団における量の平均$\mu_1$、$\mu_2$が等しい($\mu_1 = \mu_2$)という仮説を設定します。また回帰係数の検定$\beta$では係数が0である($\beta=0$)という仮説を設定します。これらの対立仮説はそれぞれ、$\mu_1 \neq \mu_2$、$\beta \neq 0$です。

このように、二つの仮説に共通するパラメータ(平均値の差の検定の例ではパラメータの個数1で$\mu_1 - \mu_2$、回帰の例でもパラメータの個数1で$\beta$)に対し、帰無仮説ではパラメータ空間上の1点を、対立仮説ではそれ以外を仮説と整合的なパラメータ空間として設定することになります。

ベイズファクターを用いてこのような2つの仮説の比較を行う場合を、以下のように整理することができます。

◆ベイズファクターを用いた仮説検定 2つの仮説$H_0$、$H_1$の比較を考えたとき、ベイズファクター$BF_{01}$は2つの仮説のもとでの周辺尤度の比として定義される。またこれは対立仮説$H_1$のみを用いても定義できる。 $$ BF_{01} = \cfrac{p(x^n | H_0)}{p(x^n |H_1)} = \cfrac{p(x^n | \boldsymbol{\theta} = \boldsymbol{\theta_0},H_1)}{p(x^n |H_1)} \tag{2} $$ ここで、$p(x^n | M)$はモデル$M$における周辺尤度、$x^n$は$n$組の確率変数の$X^n$からの実現値である。また$\boldsymbol{\theta_0}$は帰無仮説に整合的なパラメータ空間上の1点を示す。

$(2)$式において気を付けなければならないのは、分母が$p(x^n | \boldsymbol{\theta} \neq \boldsymbol{\theta_0},H_1)$ではなく$p(x^n |H_1)$としている点です。このようにしても対立仮説との比較が可能な理由は、定義に基づき$H_1$のときの周辺尤度をパラメータについての周辺化(積分)で計算するときに、パラメータ空間に比して、パラメータ空間上の1点($\boldsymbol{\theta} = \boldsymbol{\theta}_0$となる点)が無視してよい程小さいからです。

また、このように$H_1$がより一般化したモデル$H_1$の特別な場合に値するような状態を、「$H_0$は$H_1$にネストされている」とか単に「ネストされたモデル」などと呼びます。

以下では帰無仮説と対立仮説の一般的な記法$H_0$、$H_1$を用いずそれぞれ$M_0$、$M_1$と記述しますが、適宜読み替えて下さい。

ベイズファクターの特長

上のようにベイズファクターを用いて帰無仮説と対立仮説の比較をするメリットを列挙していきます。

基本的な量である

以前の記事で見たように、ベイズファクターは自由エネルギーや周辺尤度から計算される、モデルの説明力の指標となる基本的な量です。この指標を用いて簡潔に仮説の比較を行うことが可能となります。
またこの特徴から(周辺尤度がcoherenceな量であるため)、以下のように3モデル以上の比較も可能です。

$$ \cfrac{p(x^n | M_1)}{p(x^n | M_3)} = \cfrac{p(x^n | M_1)}{p(x^n | M_2)} \cfrac{p(x^n | M_2)}{p(x^n | M_3)} \tag{3} $$

モデル同士の平等な比較を行う

ベイズファクターは2つのモデルの周辺尤度の比であることから、2つの仮説を対等に比較することができます。これはつまり、帰無仮説に対応するモデルを支持する根拠も、それに反する根拠もまったく同じように得られるということであり、帰無仮説を支持するという結論を導くことも可能である、ということです。

これに対し、従来の仮説検定では帰無仮説が正と仮定したうえでの背理法に基づく対立仮説の採択しかできない為、結論は、「帰無仮説を棄却し、対立仮説を採択する」もしくは「帰無仮説を棄却できないが採択もしない」の2択となります。このような仮説の非対称性は、頻度論に基づく仮説検定に対する批判の1つとなっています。

結果が解釈しやすい

ベイズファクターによる仮説検定で得られる結果は「$H_0$に比して$H_1$が正しい確率は〇〇%」であるといったものになります。これがとても分かりやすい。p値を用いた仮説検定ではそうはいきません。p値は「帰無仮説が正しいと仮定したもとで、観測値よりも極端な値が観測される確率」という、厄介な値を示すものだからです。

逐次更新が可能

従来の仮説検定は、事前にサンプリング計画を設定し、予定した数のデータが蓄積して初めて実施する必要があります。検定の結果、仮に有意な結果が得られず、さらにデータを追加して再度検定を実施しようとすると、第1種の過誤を犯す確率が本来の確率よりも大きくなってしまいます。 これに対し、ベイズ統計は事前データから事後データへの更新が理論的に可能ですので、ベイズファクターについて定めた閾値に達するまでデータを逐一追加していき、閾値に達した時点でデータの収集をストップすることが問題なく可能となります。

複数のモデルの組み合わせに利用できる

ベイズファクターを2つのモデルの重みづけ係数として利用し、回帰係数を算出することも可能です。

オッカムの剃刀効果をもつ

つまり、同程度の説明力をもつモデルがあるとすれば、ベイズファクターはよりシンプルなモデルを選択する、ということです。この性質は以前の記事での実験で確認したものになります。
この理由は、周辺分布$p(x^n |M)$が、事前分布と事後分布の積をモデル$M$のパラメータについて周辺化消去した値であることからイメージすることが可能です。つまり、モデルを複雑にする(パラメータ空間をむやみに拡張する)と、尤度が0に近くなる空間が大部分を占めることとなり、それが平均的な周辺尤度を小さくする要因となるんです。

ベイズファクターの課題

ベイズファクターを用いたモデル比較には課題もあります。以下、課題を列挙します。

着目するパラメータの事前分布の設定の影響を受けやすい

これは、周辺分布$p(x^n |M)$が事前分布と事後分布の積をモデル$M$のパラメータについて周辺化消去した値であることからも自明です。 では、無情報事前分布を設定してやればよいかというとそうもいきません。なぜなら、無情報事前分布を設定すると、尤度が0に近くなる部分においてもパラメータについて必要以上の確率密度を設定することになってしまい、観測値がどうであれよりシンプルな帰無仮説に対応するモデルを強制的に採択することになってしまうからです。(オッカムの剃刀効果を持つ理由と同じですな)

これに対する解決策として、客観ベイズの研究により導かれた既定事前分布を用いる、というものがあります。既定事前分布は、研究者の間で合意のとれた、典型的な応用場面で汎用的に用いることのできる事前分布です。これについてはまた別の記事取り上げたいです…。

計算が困難な場合が多い

ベイズファクターは、定義に従うならば以下のように計算しなければなりません。

$$ BF_{01} =\cfrac{\int_{S_{\theta_1}}\int_{S_{\theta_2}}\ldots\int_{S_{\theta_n}} p(x^n|\boldsymbol{\theta},M_0)\varphi(\boldsymbol{\theta}|M_0) d\theta_n \ldots d\theta_2 d\theta_1}{\int_{S_{\theta_1}}\int_{S_{\theta_2}}\ldots\int_{S_{\theta_n}} p(x^n|\boldsymbol{\theta},M_1)\varphi(\boldsymbol{\theta}|M_1) d\theta_n \ldots d\theta_2 d\theta_1} \tag{4} $$

ここで、$p(x^n | M)$は観測値$x^n$が与えられたときのモデル$M $の尤度関数、$\varphi(M)$はモデル$M$の事前分布です。$\boldsymbol{\theta}$はモデル$M_1$、$M_2$に共通するパラメータであり、$\boldsymbol{\theta}=(\theta_1,\theta_2,\ldots,\theta_n),~~~\theta_1 \in S_{\theta_{1}},\theta_2 \in S_{\theta_{2}},\ldots,\theta_n \in S_{\theta_{n}},~~~S_{\theta} ∈ \mathbb{R}$です。

以前の記事での実験では、事前分布に尤度関数と共役な関係にある共役事前分布を用いたため、上記の計算が可能だったのですが、多くの場面でこの計算は解析的には困難です。

これに対する解決策として、以降ではSavage-Dickey法について説明していきます。

Savage-Dickey法

Savage-Dickey法の概要を以下に示します。

◆Savage-Dickey法

モデル$M_0$と$M_1$に共通のパラメータ$\boldsymbol{\theta}$があるとき、$M_0$と$M_1$が

$$ p(x^n | M_0) = p(x^n | \boldsymbol{\theta} = \boldsymbol{\theta}_0, M_1) \tag{5} $$

とネストされた関係にある場合、ベイズファクター$BF_{01}$は下記のとおり計算できる。

$$ BF_{01} = \cfrac{p(\boldsymbol{\theta}=\boldsymbol{\theta}_0 | x^n, M_1)}{p(\boldsymbol{\theta}=\boldsymbol{\theta}_0 |M_1)} \tag{6} $$

$(6)$式$\boldsymbol{\theta}_0$は、前述の帰無仮説に整合なパラメータ空間上の一点を指しますが、ここでは任意の一点であると考えて差支えありません。 分母$p(\boldsymbol{\theta}=\boldsymbol{\theta}_0 | x^n, M_1)$は、$x^n$、$M_1$が与えられたときの事後分布における、$\boldsymbol{\theta}=\boldsymbol{\theta}_0$上の確率密度、分子$p(\boldsymbol{\theta}=\boldsymbol{\theta}_0 |M_1)$は、$M_1$の事前分布における$\boldsymbol{\theta}=\boldsymbol{\theta}_0$上の確率密度を意味します。

Savage-Dickey法の利点は、$(4)$式のような周辺尤度を用いたベイズファクターの定義を一旦忘れて、より一般化された方のモデルの事前分布と事後分布の一点比較をするだけでベイズファクターを求められるという簡便さにあります。なぜ簡便かというと、事後分布を求めるだけでよいのならば、これはもうMCMCを用いた推定手法の独擅場だからですネ。

$(2)$式のような仮説検定の枠組み上では、$(6)$式は常に成立します。その証明を以下に示します。

◆仮説検定の文脈でSavage-Dickey法が成立することの証明 ベイズルールより、 $$ p(x^n | \boldsymbol{\theta}=\boldsymbol{\theta}_0, H_1) = \cfrac{p(\boldsymbol{\theta}=\boldsymbol{\theta}_0|x^n,H_1) p(x^n|H_1)}{p(\boldsymbol{\theta}=\boldsymbol{\theta}_0|H_1)} $$ よって、 $$ BF_{01} = \cfrac{p(x^n | H_0)}{p(x^n |H_1)} = \cfrac{p(x^n | \boldsymbol{\theta} = \boldsymbol{\theta_0},H_1)}{p(x^n |H_1)} = \cfrac{p(\boldsymbol{\theta}=\boldsymbol{\theta}_0|x^n,H_1)}{p(\boldsymbol{\theta}=\boldsymbol{\theta}_0|H_1)} $$

また、仮説検定の対象となるパラメータ$\boldsymbol{\theta}$の他にも別の共通したパラメータが存在した場合、そのパラメーターはベイズファクターの結果に$\boldsymbol{\theta}$を介してのみしか影響しないことが知られています。その証明を、Savage-Dickey法の一般的な証明として以降に示します。

◆Savage-Dickey法の証明 モデル$M_0$と$M_1$に共通のパラメータ$\boldsymbol{\theta},\boldsymbol{\psi}$があり、$\boldsymbol{\psi}$についての条件付き確率密度が$\boldsymbol{\theta} = \boldsymbol{\theta}_0$付近で連続であると仮定する。 $$ p(x^n | \boldsymbol{\psi}, M_0) = p(x^n | \boldsymbol{\psi}, \boldsymbol{\theta} = \boldsymbol{\theta}_0, M_1) \tag{★} $$ 及び $$ p(\boldsymbol{\psi} | M_0) = p(\boldsymbol{\psi} | \boldsymbol{\theta} = \boldsymbol{\theta}_0, M_1) \tag{☆} $$ が成立するとき、$M_0$のもとでの周辺尤度$p(x^n|M_0)$は、 $$ \begin{split} p(x^n|M_0) &=& \int_{S_{\psi_1}} \int_{S_{\psi_2}}\ldots\int_{S_{\psi_m}} p(x^n | \boldsymbol{\psi},M_0)p(\boldsymbol{\psi}|M_0)d\psi_{m}\ldots d\psi_{2}d\psi_{1} \\\\ &=& \int_{S_{\psi_1}} \int_{S_{\psi_2}}\ldots\int_{S_{\psi_m}} p(x^n | \boldsymbol{\psi},\boldsymbol{\theta}=\boldsymbol{\theta}_0, M_1)p(\boldsymbol{\psi}|\boldsymbol{\theta}=\boldsymbol{\theta}_0,M_1)d\psi_{m}\ldots d\psi_{2}d\psi_{1} \\\\ &=& p(x^n | \boldsymbol{\theta}=\boldsymbol{\theta}_0, M_1) \end{split} $$ ここで、$\boldsymbol{\psi}=(\psi_1,\psi_2,\ldots,\psi_m),~~~\psi_1 \in S_{\psi_{1}},\psi_2 \in S_{\psi_{2}},\ldots,\psi_m \in S_{\psi_{m}},~~~S_{\psi} ∈ \mathbb{R}$である。また、ベイズルールより $$ p(x^n | \boldsymbol{\theta}=\boldsymbol{\theta}_0, M_1) = \cfrac{p(\boldsymbol{\theta}=\boldsymbol{\theta}_0|x^n,M_1)p(x^n|M_1)}{p(\boldsymbol{\theta}=\boldsymbol{\theta}_0|,M_1)} $$ よって、 $$ BF_{01} = \cfrac{p(x^n | M_0)}{p(x^n |M_1)} = \cfrac{p(\boldsymbol{\theta}=\boldsymbol{\theta}_0|x^n,M_1)}{p(\boldsymbol{\theta}=\boldsymbol{\theta}_0|M_1)} $$

上記証明において仮定した$(★)$は、$(5)$式と同様、$M_0$が$M_1$にネストされた関係であることを示します。さらに$(☆)$が新たな仮定として追加されましたが、これはネストされた関係にあるモデルでは常に成り立つと考えて問題無いと思います。ちなみに$\boldsymbol{\theta}$と$\boldsymbol{\psi}$が独立であれば$(☆)$は常に成立します。

上記証明では両モデルに共通するパラメータを、我々の関心対象である$\boldsymbol{\theta}$と、それ以外の関心のない(nuisance、厄介な)$\boldsymbol{\psi}$に分けています。$(★)$及び$(☆)$が成立するとき、最終的な$BF_{01}$の導出にパラメータ$\boldsymbol{\theta}$は出てきているが$\boldsymbol{\psi}$は出てきていないので、上記証明は、$\boldsymbol{\psi}$は$\boldsymbol{\theta}$を介してのみしか$BF_{01}$に影響しない、ということを示しています。

おわりに

前回に引き続き、今回もベイズファクターにまつわる内容を書きました。

前回の記事では、ベイズファクターについて一からその正体を見ていきました。今回はその続編的な内容で、ベイズファクターが仮説検定に利用可能であること、また仮説検定にベイズファクターを用いることの利点や課題、さらに簡便なベイズファクターの計算手法であるSavage-Dickey法について書きました。

これでベイジアン仮説検定を実践するための準備が整ったので、次回以降では実際にベイジアン仮説検定をやっていきたいと思います。

コメントを書く


※ コメントは承認されると表示されます

承認されたコメント一覧