参考文献は以下の通り。ベイズファクターを使って平均値の差の検定が英語なら文献が多い。
- Byesian hypothesis testing for psychologists: A tutorial on the Savage-Dickey method
- Using MCMC chain outputs to efficiently estimate Bayes factors
- Bayesian t tests for accepting and rejecting the null hypothesis
effect size $\delta$の導入
ここでは、対応のある場合、対応のない場合に分けて検定の対象となるパラメータ$\delta$を導入します。
対応のある場合
同じ対象に対し、2つの異なる状態で観測された値をそれぞれ確率変数$X_i$、$Y_i$からの観測値$x_i$、$y_i$とおき、独立同分布の確率変数の組$X^n=(X_1,X_2,\ldots,X_n)$、$Y^n=(Y_1,Y_2,\ldots,Y_n)$から観測値$x^n=(x_1,x_2,\ldots,x_n)$、$y^n=(y_1,y_2,\ldots,y_n)$を得たとします。
まずは、簡単に確率変数$X_i$、$Y_i$の差が平均$\mu$の正規分布に従うと記載しちゃいます。
$(1)$式の唐突に現れた分散$\sigma^2$は$(X_i - Y_i)$のスケールを表現するパラメータです。これはそのときどきの検定対象によって異なる値をとります。このとき、平均$\mu$と$\sigma$の間に何の関係も与えない場合、$\mu$の値の大小がどれくらいの意味をもつものなのか把握が困難になってしまいます。そこで、平均$\mu$をeffect sizeと呼ばれる値$\delta$とスケールを指定する値に分け、スケールを指定する値を$\sigma$としちゃいます。
これでようやくスケールが単位あたりに調整されたeffect size$\delta$に着目すれば良いことになり、以降の議論を一般的な形で記述できるようになりました。
対応のない場合
グループ1、グループ2に所属する対象からの観測値をそれぞれ確率変数$X_i$、$Y_i$からの観測値$x_i$、$y_i$とおき、独立同分布の確率変数の組$X^n=(X_1,X_2,\ldots,X_n)$、$Y^m=(Y_1,Y_2,\ldots,Y_m)$から観測値$x^n=(x_1,x_2,\ldots,x_n)$、$y^m=(y_1,y_2,\ldots,y_m)$を得たとします。
まずは、$X_i$、$Y_j$がともに分散$\sigma$の正規分布に従い、また2つの分布の平均が$\alpha$だけ離れているとおきます。
この場合もやはり同様に、2つの分布の平均値の差$\alpha$と分散$\sigma$の間に何の関係も与えない場合、$\alpha$の値の大小がどれくらいの意味をもつものなのか把握が困難になってしまいます。そこで、やはり同様に
とおいてやれば、ようやくスケールが単位あたりに調整されたeffect size$\delta$に着目すれば検定が可能になり、こちらも以降の議論を一般的な形で記述できるようになります。
仮説の設定
$(3)$、$(6)$式の$\delta$に着目し、従来通りに帰無仮説と対立仮説を設定します。
以降では説明の簡略化のため、両側検定の場合の仮説を前提にします。
事前分布の設定
さて、ベイズの枠組みではすべての母数に事前分布を設定してやる必要があります。この事前分布の役割は、分析者が前もって知りうる情報を反映させるものである…と思っていませんか?
この考え方は主観ベイズ(subjective Bayes)と呼ばれており、間違ってはいません。しかし今回の目的は検定です。それもベイズファクターを用いた検定であり、事前分布の設定が検定結果に大きく左右されることからも、なるべく事前分布に主観を与えたくありません。このような態度を、客観ベイズ(objective Bayes)と呼び、ベイズファクターを用いた仮説検定の場合は客観ベイズの立場で事を考えることが重要になってきます(Rouder et al.(2009))。
古今東西、客観ベイズの分野(それもなぜか心理学研究分野)では、研究者の間で合意のとれた検定のための汎用性のある事前分布の設定方法が盛んに研究されてきました。平均値の差の検定のための汎用的な事前分布もいくつか開発されています。ここでは天下り的に、JZSの事前分布(JZS proir)と単位情報事前分布(unit information proir)について整理します。
コーシー分布は下記式で定義される。 $$ \mathrm{Cauthy}(y | \mu, \sigma) = \cfrac{1}{\pi \sigma}\cfrac{1}{1 + ((y - \mu)/\sigma)^2} $$ $\mu=0$、$\sigma=1$としたコーシー分布を標準コーシー分布と呼び、下記式で定義される。 $$ \mathrm{Cauthy}(y | \mu=1, \sigma=1) = \cfrac{1}{\pi}\cfrac{1}{1 + y^2} $$ 逆ガンマ分布は下記式で定義される。 $$ \mathrm{Inverse}~\mathrm{Gamma}\left( y | \alpha, \beta \right) = \cfrac{\beta^{\alpha}}{\Gamma(\alpha)}y^{-\alpha-1}\exp\left( -\cfrac{\beta}{y} \right) ~~~(y>0) $$
JZSの事前分布と単位情報事前分布の唯一の違いはeffect size $\delta$の事前分布(正規分布)の分散の設定です。JZSの事前分布は分散$g$が逆カイ二乗分布に従うとした一方、単位情報事前分布は分散固定です。その意味では、単位情報事前分布の方がモデルに与える事前情報が多いことになります。また$r=1$のとき、2つの設定は$\delta$の事前分布を標準正規分布にするか、標準コーシー分布にするかの違いに帰着することが分かります。
標準正規分布と標準コーシー分布を比較した図が以下です。
図からも、標準コーシー分布は標準正規分布と比較し裾が重く、0から外れた値もとりやすい分布になっていることから、$r=1$の場合、JZSの事前分布は単位情報事前分布より事前情報が少ないことが確認できます。
また、両設定に共通のパラメータ$\sigma$及び、対応のある検定の時のみ必要な$\mu$については、ともにJeffeysの事前分布と呼ばれる事前分布を用いています。Jeffreysの事前分布はフィッシャー情報量から導かれるもので、事前分布と事後分布のカルバック・ライブラー情報量を最大化する効果がある、という点で無情報事前分布として使えるとされているようです。このあたりは詳しくないですが、Appendixに定義から正規分布の平均及び分散に対するJeffreysの事前分布を導出する方法を載せています。
ちなみに、$\sigma$のように検定の対象となるパラメータとは別に存在し、かつ両モデルに共通の役割をもつパラメータはnuisance parameterと称され、こうしたパラメータはベイズファクターの値の決定にクリティカルでないことが証明されています。これに関しては以前の記事を参照してくだせえ。
ベイズファクターの解法
前節でモデルの設定を整理したので、本節ではベイズファクターの求め方を整理します。
解析的に求める
先に説明したJZSの事前分布と単位情報事前分布は解析的に計算することが可能です。ここでは導出や計算式までは深堀りしません。あまり面白くないので…。式を確認したい場合は参考文献を参照のこと。この文献の著者らはJZSの事前分布や単位情報事前分布の解析解を求めることができるWebページやRパッケージを開発しているので、実践編で解析解を求める際はこのあたりを活用させてもらいます。
MCMC法で近似的に求める
本記事と実践編の本題はこちらです。これにはネストされたモデル同士の比較で有効なSavage-Dickey法を使ってベイズファクターを計算します。Savage-Dickey法の概要を以下に示します。詳細は以前の記事を参照のこと。
$(11)$、$(12)$式において、$H_0$、$H_1$にそれぞれ対応するモデルを$M_0$、$M_1$と読み替えれば、$H_1$に対応するモデル$M_1$における対象パラメータの事前分布と事後分布の一点比較をするだけでベイズファクター$BF_{01}$を求められることが分かります。
事前分布$p(\boldsymbol{\delta}=\boldsymbol{\delta}_0 |M_1)$の方は、MCMCの結果からではなく、設定したモデルから値を算出します。たとえば、従来通りの仮説検定の枠組みでは、JZSの事前分布、単位情報事前分布の双方ともに$\delta=0$が帰無仮説に対応するパラメータ空間上の点ですから、
これが求めたいベイズファクターになります。
あとは$p(\delta=0 | \mathcal{D}, M_1)$が分かればベイズファクターを求められるので、以降はこれを求めることを考えます。
$\delta$の事後分布の求め方
条件の無い周辺事後分布を使う
こちらは全パラメータの同時分布から$\delta$以外のパラメータ$\boldsymbol{\psi}$を周辺化消去することで$\delta$の事後分布を求めています。JZSの事前分布の場合、$\boldsymbol{\psi}=(\sigma,g,(\mu))$、単位情報事前分布の場合、$\boldsymbol{\psi}=\sigma$ですね。$r$は分析者が事前に設定するものなのでこれに含まれません。
$(14)$式はMCMCのサンプルを用いて近似的に求めるなら、$\boldsymbol{\psi}$を無視し、$\delta$のサンプルの分布をカーネル密度推定、もしくは以前の記事のように対数スプライン推定をするだけでイケます。簡単で便利です。
条件付き周辺事後分布を使う
こちらは$\boldsymbol{\psi}$に関する条件付きの$\delta$の事後分布を使って$p(\delta=0 | x^n, M_1)$を求める方法です。参考文献に倣ってConditional MArginal Density Estimator を略し、CMDEと呼びます。
$(14)$式の計算では切り捨てていた$\boldsymbol{\psi}$について、その事後分布も$x^n$についての情報を含んでいるのだから、$\boldsymbol{\psi}$も考慮して$p(\delta=0 | x^n, M_1)$を求めてやるべきだ、というのがCMDEの発想ですが、実際、$(16)$式による計算は$(15)$式よりもはるかに$p(\delta=0 | \mathcal{D}, M_1)$の推定精度が良いことが参考文献による実験で解明されています。その理由はラオ・ブラックウェルの定理により明らかとのこと。勉強できたらAppendixに載せたいと思います。
$(16)$式は、MCMCサンプルを用いて次のように近似的に計算されます。
$(17)$式は、条件付き事後分布$p(\delta|\boldsymbol{\psi},\mathcal{D},M_1)$の関数形が明らかであれば解析的に計算可能です。そこで、JZSの事前分布、単位情報事前分布それぞれの場合の条件付き事後分布$p(\delta|\boldsymbol{\psi},\mathcal{D},M_1)$及びその導出過程を、対応のある場合とない場合に分けて提示します。
これでベイズファクターを使って平均値の差の検定をする準備が整いました。実践編は実践編で!
Appendix
Jaffrayの事前分布
この定義に沿って正規分布の平均・分散に対するJeffreysの事前分布を導出する。