今回は、ベイズファクターを使った線形回帰分析におけるモデル選択について理論を整理します。 ベイズファクターとはなんぞや?という方はこちらを、Savage-Dickey法についてはこちらを参照のこと。
主な参考文献はこちらです。
線形回帰モデル
まずは線形回帰モデルの導出と、周辺尤度について整理します。
線形回帰モデルでは、応答変数
ここで、
平均ベクトル
本記事では参考文献と同様、説明変数の選び方を一般化して説明するため、
ここで、
また、どの説明変数も用いないモデルをヌルモデルと呼び、
線形回帰モデルの評価
ベイズ統計におけるモデル評価方法を整理します。ここで述べることは線形回帰に限定されないより一般的な議論です。
モデル確率の更新
モデル選択やモデルの不確実性の評価にあたっては、不明なパラメータ
ベイズファクター
ベイズファクターは
ベイズファクターを使うと、
Null-Based Model
また、任意のモデル間を比較するベイズファクターについても、すべてのモデルに対して包含(Encompassing)関係にあるヌルモデルを基準に計算することができます。
Encompassing approach
事前分布
これまでの議論から、ベイズファクターは事前分布の影響を強く受けることは明白です。客観ベイズの立場から見れば、客観的で研究者間で合意のとれた事前分布の設定方法を確立することで、ベイズファクターやモデル確率の不確定性を克服することが重要です。以下では、望ましい事前分布の設定について整理します。
事前分布に求められる性質
事前分布に求められる性質を列挙します。
・ Location and Scale Invariance
気温や距離など、説明変数の単位や値の大きさに影響しないこと。
・ Consistency
サンプル数が極大に近づくと、ベイズファクターが適切な値に収束すること。つまり
・ Consistent in Information
データが、モデルの比較に用いられる値(線形回帰分析の場合、決定係数)を介してのみベイズファクターに影響すること。線形回帰分析の場合、
・ Computationally Convenience
ベイズファクターが解析的に計算可能であること。ただし近年ではMCMC法やブリッジサンプリング等の推定手法が進歩しているので、必ずしもこの条件にとらわれる必要はないかもしれません。
Zellner-Siow’s Priors
前節で挙げた事前分布の望ましい性質を満たす線形回帰分析におけるパラメータの事前分布として、Zellner-Siow’s Priorsが提案されています。
また、下記
ハイパーパラメータ
ベイズファクターの計算
以降ではZellner-Siow’s Priorsをおいたときのベイズファクターの計算方法を整理します。
1変数積分近似による推定
概要を以下に示します。
ちなみに、本手法を使ったベイズファクターの計算はRichard D. Morey氏らが開発しているBayesFactorパッケージのregressionBF()
関数で可能です。
Savage-Dickey法による推定
Savage-Dickey法の概要を以下に示します。
であることは明らかですから、あとは、
ここでは、以前の記事でも採用したConditional Marginal Density Estimator(CMDE) を使って
※上記の証明はストレートかつ冗長なので割愛します。自分で導出したい人はこちらが大いに参考になります。
まとめ
本記事では以下の内容について整理しました。
-
ベイズファクターを使ったモデル確率の更新
-
ベイズファクターを計算する際に求められる事前分布の性質
-
線形回帰モデルにおいて提案された適切な事前分布
実践編はこちらです。ベイズファクターを実際に算出し、モデルをどのように評価できるのか見ていきます。
さらにこちらの記事ではベイズファクターを推定するための手法を複数実践しているので、読んでみてください。