今回は、ベイズファクターを使った線形回帰分析におけるモデル選択について理論を整理します。ベイズファクターとはなんぞや？という方はこちらを、Savage-Dickey法についてはこちらを参照のこと。

主な参考文献はこちらです。

線形回帰モデル

まずは線形回帰モデルの導出と、周辺尤度について整理します。

$Y = {(y_{1}, \dots, y_{N})}^{T}$ を応答変数、 $X_{1} = {(x_{11} - {\bar{x}}_{1}, \dots, x_{1 N} - {\bar{x}}_{1})}^{T}, \dots, X_{p} = {(x_{p 1} - {\bar{x}}_{p}, \dots, x_{p N} - {\bar{x}}_{p})}^{T}$ を説明変数とします( ${\bar{x}}_{i} = E [X_{i}], i = 1, \dots, p$ )。

線形回帰モデルでは、応答変数 $Y$ が平均ベクトル $μ = {(μ_{1}, \dots, μ_{N})}^{T}$ をパラメータにもつ正規分布に従うと仮定します。

$\begin{matrix} (1) & p (Y) = Normal (μ, σ^{2} I_{N}) = \frac{1}{(2 π)^{n / 2} σ^{N}} \exp (- \frac{1}{2 σ^{2}} {(Y - μ)}^{T} (Y - μ)) \end{matrix}$

ここで、 $I_{N}$ は $N \times N$ の単位行列です。

平均ベクトル $μ$ は、 $1_{N}$ (1で構成されるN行の列ベクトル)、 $X_{1}, \dots, X_{N}$ のいずれかもしくはすべての線形結合で説明できるものと仮定します。ここで常に考えなければならない問題は、 $μ$ の説明に用いる説明変数の組をどうするかです。これが線形回帰分析においての所謂モデル選択の問題と呼ばれます。

本記事では参考文献と同様、説明変数の選び方を一般化して説明するため、 $p$ 次元ベクトル $γ = (γ_{1}, \dots, γ_{p})$ をおき、 $γ_{i} = 1$ のとき、 $X_{i}$ を用いる説明変数に含め、 $γ_{i} = 0$ のときは逆に含めないこととすることで切片と説明変数によって張られるモデル空間を示すことにし、 $γ_{i} = 1$ の $X_{i}$ で構成される $N$ × $p_{γ}$ 行列を $X_{γ}$ と示します。さらに $γ$ を用いたモデルを $M_{γ}$ とおき、 $M_{γ}$ での係数パラメータを下付き文字で同様に示します。

$\begin{matrix} (2) & M_{γ} : μ = 1_{N} α + X_{γ} β_{γ} \end{matrix}$

ここで、 $α$ はスカラー、 $β_{γ}$ は $p_{γ}$ 次元ベクトルです。 $X_{γ}$ は各変数で中心化されているので、変数のばらつきのみが係数パラメータ $β_{γ}$ に反映され、変数のスケールはすべて $α$ で表現されることになります。

また、どの説明変数も用いないモデルをヌルモデルと呼び、 $M_{N}$ と表現します（下付き文字の $N$ はサンプル数ではなく、Null-modelの頭文字）。

$\begin{matrix} (3) & M_{N} : μ = 1_{N} α \end{matrix}$

線形回帰モデルの評価

ベイズ統計におけるモデル評価方法を整理します。ここで述べることは線形回帰に限定されないより一般的な議論です。

モデル確率の更新

モデル選択やモデルの不確実性の評価にあたっては、不明なパラメータ $θ_{γ} = (α, β_{γ}, σ^{2}) \in Θ_{γ}$ の事前分布を決め、各モデル $M_{γ}$ の事前確率 $p (M_{γ})$ を新しく得られたデータに基づきアップデートすることが一つのアプローチとして考えられます。

$\begin{matrix} (4) & p (M_{γ} | Y) = \frac{p (M_{γ}) p (Y | M_{γ})}{\sum_{γ} p (M_{γ}) p (Y | M_{γ})} \end{matrix}$

$(4)$ 式はモデル確率の更新方法を示したもので、ベイズの定理そのままですが、右辺に現れた $p (Y | M_{γ})$ が本記事の鍵となる値、周辺尤度です。 $(5)$ 式に示す通り、周辺尤度は尤度をパラメータの事前分布で重みづけ（積分）したもので、データ $Y$ に対するモデルの平均的な説明力を示します。

$\begin{matrix} (5) & p (Y | M_{γ}) = \int_{Θ_{γ}} p (Y | θ_{γ}, M_{γ}) p (θ_{γ} | M_{γ}) d θ_{γ} \end{matrix}$

ベイズファクター

ベイズファクターは $(6)$ 式に示す通り2つのモデル間の周辺尤度比として定義され、データ $Y$ に対する2つのモデルの説明力の比と捉えることができます。

$\begin{matrix} (6) & B F [M_{γ^{^{'}}} : M_{γ}] = \frac{p (Y | M_{γ^{^{'}}})}{p (Y | M_{γ})} = \frac{\int_{Θ_{γ^{^{'}}}} p (Y | θ_{γ^{^{'}}}, M_{γ^{^{'}}}) p (θ_{γ^{^{'}}} | M_{γ^{^{'}}}) d θ_{γ^{^{'}}}}{\int_{Θ_{γ}} p (Y | θ_{γ}, M_{γ}) p (θ_{γ} | M_{γ}) d θ_{γ}} \end{matrix}$

ベイズファクターを使うと、 $(4)$ 式は以下のように変形できます。

$\begin{matrix} (7) & p (M_{γ} | Y) = \frac{p (M_{γ}) B F [M_{γ} : M_{b}]}{\sum_{γ^{^{'}}} p (M_{γ^{^{'}}}) B F [M_{γ^{^{'}}} : M_{b}]} \end{matrix}$

$M_{b}$ はベイズファクターを算出する際のベースとなるモデルで任意のモデルを選択できますが、通常はどの選択をとってもモデル同士がネストされた関係となるよう、ヌルモデルもしくはフルモデル（すべての説明変数を用いたモデル）が用いられます。

Null-Based Model

$\begin{matrix} (8) & B F [M_{γ} : M_{N}] = \frac{p (Y | M_{γ})}{p (Y | M_{N})} \end{matrix}$

また、任意のモデル間を比較するベイズファクターについても、すべてのモデルに対して包含(Encompassing)関係にあるヌルモデルを基準に計算することができます。

Encompassing approach

$\begin{matrix} (9) & B F [M_{γ^{^{'}}} : M_{γ}] = \frac{B F [M_{γ^{^{'}}} : M_{N}]}{B F [M_{γ} : M_{N}]} \end{matrix}$

個人的にはベイズファクターとモデル確率更新によるモデル評価手法はものすごく可能性があると思っています。ベイズファクターは新しく得られたデータに対する各モデルの説明力を評価でき、これまでの情報から既に算出されたモデル確率を、ベイズファクターに基づいて更新する・・・とても近未来的なにおいを感じます。

事前分布

これまでの議論から、ベイズファクターは事前分布の影響を強く受けることは明白です。客観ベイズの立場から見れば、客観的で研究者間で合意のとれた事前分布の設定方法を確立することで、ベイズファクターやモデル確率の不確定性を克服することが重要です。以下では、望ましい事前分布の設定について整理します。

事前分布に求められる性質

事前分布に求められる性質を列挙します。

・ Location and Scale Invariance

気温や距離など、説明変数の単位や値の大きさに影響しないこと。

・ Consistency

サンプル数が極大に近づくと、ベイズファクターが適切な値に収束すること。つまり $M_{γ}$ と $M_{N}$ を比較するとき、「真の」モデルが $M_{γ}$ であるならば、 $B F [M_{γ} : M_{N}] \to \infty$ に、「真の」モデルが $M_{N}$ ならば $B F [M_{γ} : M_{N}] \to 0$ にそれぞれ収束すること。

・ Consistent in Information

データが、モデルの比較に用いられる値（線形回帰分析の場合、決定係数）を介してのみベイズファクターに影響すること。線形回帰分析の場合、 $R^{2} = 1$ のとき $B F [M_{γ} : M_{N}] \to \infty$ となること。

・ Computationally Convenience

ベイズファクターが解析的に計算可能であること。ただし近年ではMCMC法やブリッジサンプリング等の推定手法が進歩しているので、必ずしもこの条件にとらわれる必要はないかもしれません。

Zellner-Siow’s Priors

前節で挙げた事前分布の望ましい性質を満たす線形回帰分析におけるパラメータの事前分布として、Zellner-Siow’s Priorsが提案されています。

◆Zellner-Siow's Priors

$(1)$ 、 $(2)$ 式の $β_{γ}$ 、 $α$ 、 $σ^{2}$ に対する事前分布である下記 $(8)$ ～ $(10)$ 式を、Zellner-Siow’s Priorsとよぶ。

$\begin{matrix} (10) & α, σ^{2} \propto \frac{1}{σ^{2}} \end{matrix}$

$\begin{matrix} (11) & β_{γ} | σ^{2}, g \sim Normal (0, g σ^{2} {(\frac{X_{γ}^{T} X_{γ}}{N})}^{- 1}) \end{matrix}$

$\begin{matrix} (12) & g \sim InvGamma (\frac{1}{2}, \frac{r}{2}) \end{matrix}$

$(10)$ 、 $(11)$ 式はZellner(1986)が提案した事前分布で、Zellner’s g-Priorsと呼ばれます。この事前分布は次元のペナルティとしての役割を持つパラメータ $g$ について特定の値を与える必要があり、それが前述のConsistencyを満たせない要因となっていました。一方、ZellnerとSiow(1980)が提案したZellner-Siow’s Priorsは、パラメータgについて事前分布を与えることで、事前分布の望ましい性質を満たすことに成功しています。

また、下記 $(11)$ 式に示すように、 $(10)$ 、 $(11)$ 式は $β_{γ}$ の事前分布としてコーシー分布を採用することと等価です。これは $g$ について積分することで確認できます（筆者未導出）。

$\begin{matrix} (13) & \begin{aligned} \int_{0}^{\infty} β_{γ} | σ^{2}, g d g & = & \int_{0}^{\infty} Normal (0, g σ^{2} {(\frac{X_{γ}^{T} X_{γ}}{N})}^{- 1}) d g \\ = & Multivariate - Cauchy (β_{γ} | 0, N r σ^{2} {(X_{γ}^{T} X_{γ})}^{- 1}) \\ = & \frac{Γ (\frac{1 + p_{γ}}{2})}{Γ (\frac{1}{2}) π^{\frac{p_{γ}}{2}} {| N r σ^{2} {(X_{γ}^{T} X_{γ})}^{- 1} |}^{\frac{1}{2}} {(1 + \frac{1}{N r σ^{2}} β_{γ}^{T} X_{γ}^{T} X_{γ} β_{γ})}^{\frac{1 + p_{γ}}{2}}} \end{aligned} \end{matrix}$

ハイパーパラメータ $r$ は、 $β_{γ}$ の事前分布（ $(13)$ 式の多変量コーシー分布）のscale matrixの大きさを調整する役割を持ちます。Richard D. Morey氏は現在のところ $r = \frac{\sqrt{2}}{4}$ を標準値として推奨しているようです。

$β_{γ}$ について説明変数や応答変数のスケール等に配慮した事前分布を与えている $(11)$ 式の解釈は直感的です。まず $g$ は各スケールについて標準化した係数パラメータの分散の意味をもちます。次に $σ^{2}$ はその値を応答変数の単位にスケーリングします。

${(\frac{X_{γ}^{T} X_{γ}}{N})}^{- 1}$ ですが、これは $X_{γ}$ の分散共分散行列になるので、 $g$ を $X_{γ}$ の単位にスケーリングする役割をもちます。

ベイズファクターの計算

以降ではZellner-Siow’s Priorsをおいたときのベイズファクターの計算方法を整理します。

1変数積分近似による推定

概要を以下に示します。

◆1変数積分近似による推定方法

ベイズファクター $B F [M_{γ} : M_{N}]$ は下記の通り計算できる。

$\begin{matrix} (14) & B F [M_{γ} : M_{N}] = \int_{0}^{\infty} (1 + g)^{(N - 1 - p_{γ}) / 2} {(1 + (1 - R_{γ}^{2}) g)}^{- (n - 1) / 2} π (g) d g \end{matrix}$

ここで、 $π (g)$ は $g$ の事前分布を、 $R_{γ}^{2}$ は $M_{γ}$ での通常の線形回帰における残差の平方和、決定係数を示す。

$(14)$ 式の $π (g)$ 以外の部分は、 $(10)$ $(11)$ 式で表現されるZellner’s g-Priorsにおける周辺尤度を解析的に求めることで算出されたものです。但し、Zellner’s g-Priorsはパラメータ $g$ については固定値を想定していたようで、さらに $g$ の事前分布 $(10)$ 式が加わったZellner-Siow’s Priorsについては、 $g$ についてのみ解析的な計算が不可能となってしまっています。そのため、 $(14)$ 式は $g$ についての一変数積分が残っていますが、これはガウス求積法などの手法を使って高精度に推定することが可能です。

ちなみに、本手法を使ったベイズファクターの計算はRichard D. Morey氏らが開発しているBayesFactorパッケージのregressionBF()関数で可能です。

Savage-Dickey法による推定

Savage-Dickey法の概要を以下に示します。

◆Savage-Dickey法による推定方法

モデル $M_{N}$ と $M_{γ}$ は

$\begin{matrix} (15) & p (Y | M_{N}) = p (Y | β_{γ} = 0, M_{γ}) \end{matrix}$

という関係にあるため、ベイズファクター $B F [M_{γ} : M_{N}]$ は下記のとおり計算できる。

$\begin{matrix} (16) & B F [M_{γ} : M_{N}] = \frac{p (β_{γ} = 0 | M_{γ})}{p (β_{γ} = 0 | Y, M_{γ})} \end{matrix}$

ここで、 $p (β_{γ} = 0 | M_{γ})$ はモデル $M_{γ}$ における $β_{γ}$ の事前分布の $β_{γ} = 0$ での確率密度を示す。同様に $p (β_{γ} = 0 | Y, M_{γ})$ はモデル $M_{γ}$ における $β_{γ}$ の事後分布の $β_{γ} = 0$ での確率密度を示す。

$(11)$ 式より、 $p (β_{γ} = 0 | M_{γ}) = \frac{Γ (\frac{p_{γ} + 1}{2})}{π^{\frac{p_{γ} + 1}{2}} {| N r σ^{2} {(X_{γ}^{T} X_{γ})}^{- 1} |}^{- \frac{1}{2}}}$

であることは明らかですから、あとは、 $p (β_{γ} = 0 | Y, M_{γ})$ をどうやって求めるかが問題です。

ここでは、以前の記事でも採用したConditional Marginal Density Estimator(CMDE) を使って $p (β_{γ} = 0 | Y, M_{γ})$ を推定する方法を提案します。

◆線形回帰分析のCMDE

条件付事後分布 $p (β_{γ} = 0 | Y, M_{γ})$ は以下である。

$\begin{matrix} (17) & p (β_{γ} = 0 | Y, M_{γ}) = Normal (\frac{1}{σ^{2}} Σ X_{γ}^{T} Y, Σ) \end{matrix}$

ここで、

$\begin{matrix} (18) & Σ = \frac{σ^{2}}{1 + \frac{1}{g}} {(X_{γ}^{T} X_{γ})}^{- 1} \end{matrix}$

※上記の証明はストレートかつ冗長なので割愛します。自分で導出したい人はこちらが大いに参考になります。

まとめ

本記事では以下の内容について整理しました。

ベイズファクターを使ったモデル確率の更新
ベイズファクターを計算する際に求められる事前分布の性質
線形回帰モデルにおいて提案された適切な事前分布

実践編はこちらです。ベイズファクターを実際に算出し、モデルをどのように評価できるのか見ていきます。
さらにこちらの記事ではベイズファクターを推定するための手法を複数実践しているので、読んでみてください。

2021.10.08 00:00

ベイズファクターを用いた仮説検定～線形回帰分析～