ベイズファクターを用いた仮説検定~相関の検定~

今回は、ベイズファクターを使った相関の検定について理論を整理します。 ベイズファクターとはなんぞや?という方はこちらを参照のこと。

参考文献は こちら です。

相関係数について おさらい

確率変数$X$、$Y$はそれぞれ平均$\mu_X$、$\mu_Y$、標準偏差$\sigma_X$、$\sigma_Y$をパラメータにもつ確率分布に従うとします。

このとき、確率変数$X$、$Y$の相関係数$\rho$は下記のとおり定義されます。

$$ \rho = \cfrac{\mathrm{Cov}\left( XY \right)}{\sqrt{\mathrm{Var}\left(X\right)}\sqrt{\mathrm{Var}\left(Y\right)}} = \cfrac{\mathrm{E}\left(XY\right) - \mu_X \mu_Y}{\sigma_X \sigma_Y} \tag{1} $$

$(1)$式より、相関係数$\rho$は$X$、$Y$に対する線形変換の影響を受けないことが確認できます。

この性質により、平均値の差の検定線形回帰のときとは異なり、モデル設計において$\rho$を他の平均・分散・共分散等のパラメータから独立させるための再パラメータ化の必要が無いことが、今回のトピックのひとつの特徴です。

相関を考慮した2変量発生過程のモデル化

では、相関を考慮して2変数の発生過程をモデル化します。

◆相関を考慮した2変量発生過程モデル

確率変数$\boldsymbol{X}^n = \left( X_1, \ldots, X_n \right)$、$\boldsymbol{Y}^n = \left( Y_1, \ldots, Y_n \right)$について、$X_i$、$Y_i$$(i = 1,2,\ldots,n)$の同時確率分布が独立同分布の2変量正規分布であると仮定する。

$$ p\left( \boldsymbol{X}^n, \boldsymbol{Y}^n\right) = \prod_{i=1}^{n} \mathrm{Normal}\left( X_i,Y_i | \mathrm{\boldsymbol{\mu},\boldsymbol{\Sigma}}\right) \tag{2} $$

ここで、$\boldsymbol{\mu} = \left( \mu_X, \mu_Y \right)^T $、$\boldsymbol{\Sigma} = \left( \begin{array}{ccc} \sigma_X^2 & \rho\sigma_X\sigma_Y \\ \rho\sigma_X\sigma_Y & \sigma_Y^2 \end{array} \right)$である。

ここでは参考文献どおりに2変数の正規性を仮定したモデルのみを取り上げますが、ガンマ分布等他の分布でも同様に相関係数を組み込んだ2変量化で対応できそうですネ。誰かやってみてください。

事前分布

周辺尤度、ベイズファクターはモデルの事前分布の影響を強く受けるので、例によって理想的な性質をもつ事前分布の取り方を紹介します。

ここで紹介する事前分布は、Predictive matching(予測的整合性)、つまり、検定したいパラメータを計算することができないサンプルサイズのときに、ベイズファクターが1になること、及び、Information consistency(情報の一貫性)、つまり、検定したいパラメータが計算される最小サイズ$n_{min}$以上で極端な値が得られた状況で、ベイズファクターが0または$\infty$のうち正しい値に振れること、これらを条件として設定されたものになります。

$\kappa$のとりかたによっては、上記の理想的な性質をみたさなくなってしまいます。例えば、$\kappa = 1$の場合、$n=3$で平面的に直線状に位置するデータが得られたときのベイズファクターは$2$となり、2つめの条件であるInformation consistencyを満たさなくなってしまいます。

◆Jeffreysの理論に則った相関パラメータの事前分布

Jeffreysの理論に従い、相関パラメータ$\rho$の事前分布$\pi(\rho)$を、伸長した対称ベータ分布(stretched symmetric beta function)とする。

$$ \pi(\rho | \kappa) = \cfrac{2^{\cfrac{\kappa - 2}{\kappa}}}{\mathrm{B}\left(\cfrac{1}{\kappa},\cfrac{1}{\kappa}\right)}\left( 1 - \rho ^ 2\right)^\cfrac{1-\kappa}{\kappa} \tag{3} $$

ここで、$\kappa$が$2$以上の値をとるとき、理想的な性質をもつ事前分布となる。

伸長した対称ベータ分布の導出 (第1種)ベータ分布の確率密度は下記である。 $$ f(x | \alpha, \beta) = \cfrac{x^{\alpha - 1}\left(1 - x\right)^{\beta - 1}}{\mathrm{B}\left(\alpha, \beta\right)} $$ ベータ分布に従う確率変数$X$について考える。 $X$の$k$次の積率$\mu_{X,k}^{'}$は、 $$ \begin{split} \mu_{X,k}^{'} &= \mathbb{E}[X^k] \\\\ &= \int _{0}^{1} \cfrac{x^{\alpha - 1}\left( 1 - x \right)^{\beta-1}}{\mathrm{B}\left(\alpha, \beta\right)} x^k dx \\\\ &= \int _{0}^{1} \cfrac{x^{\alpha + k - 1}\left( 1 - x \right)^{\beta-1}}{\mathrm{B}\left(\alpha, \beta\right)} dx \\\\ &= \int _{0}^{1} \cfrac{x^{\alpha^{'} - 1}\left( 1 - x \right)^{\beta-1}}{\mathrm{B}\left(\alpha^{'}-k, \beta\right)} dx ~~~ (\alpha + k - 1 = \alpha^{'} - 1 と置換) \\\\ &= \cfrac{\prod_{i=1}^{k}\left(\alpha^{'} - i\right)}{\prod_{i=1}^{k}\left(\alpha^{'} + \beta - i\right)} \int _{0}^{1} \cfrac{x^{\alpha^{'} - 1}\left( 1 - x \right)^{\beta-1}}{\mathrm{B}\left(\alpha^{'}, \beta\right)} dx \\\\ &= \cfrac{\prod_{i=1}^{k}\left(\alpha + k - i\right)}{\prod_{i=1}^{k}\left(\alpha + \beta + k - i\right)} (\alpha^{'} = \alpha + k と置換しなおす) \end{split} $$
memo

定理$\mathrm{B}\left( \alpha+1, \beta \right) = \cfrac{\alpha}{\alpha + \beta}\mathrm{B}\left(\alpha, \beta\right)$より、 $$ \mathrm{B}\left( \alpha^{'}-k, \beta \right) = \cfrac{\prod_{i=1}^{k}\left(\alpha^{'} + \beta - i\right)}{\prod_{i=1}^{k}\left(\alpha^{'} - i\right)} \mathrm{B}\left( \alpha^{'},\beta \right) $$

よって、$X$の平均$\mu_X$、分散$\sigma_X$はそれぞれ $$ \mu_X = \mu_{X,1}^{'} = \mathbb{E}[X] = \cfrac{\alpha}{\alpha + \beta} $$ $$ \sigma_X = \mu_{X,2} = \mathbb{E}[\left( X - \mu_X\right)^2] = \mu_{X,2}^{'} - \mu_X^2 = \cfrac{\alpha\beta}{\left(\alpha + \beta\right)^2\left(\alpha + \beta + 1\right)} $$ だから、ベータ分布の歪度$\gamma_{X,1}$は、 $$ \begin{split} \gamma_{X,1} &= \alpha_{X,3} = \mathbb{E} \left[ \left(\cfrac{X - \mu_X}{\sigma_X}\right)^3 \right] \\\\ &= \cfrac{\mu_{X,3}^{'} - 3\mu_X \mu_{X,2}^{'} + 2\mu_X^3}{\sigma_X^3} \\\\ &= (略) \\\\ &= \cfrac{2(\beta - \alpha)\sqrt{\alpha + \beta + 1}}{\left( \alpha + \beta + 2 \right)\sqrt{\alpha\beta}} \end{split} $$ よって、$\alpha=\beta$のとき歪度0となるため、$X$の分布は左右対称(対称ベータ分布)となる。 また$\alpha = \beta = \cfrac{1}{\kappa}$の対称ベータ分布を台$[-1,1]$に変換しなおした拡張分布への変換には、下記定理を用いる。
確率変数の変換公式

確率密度$f_{X}$の確率変数$X$に一対一の写像$\phi$で$X = \phi(Y)$と対応付けされる確率変数$Y$の確率密度$g_{Y}$は、

$$ g_{Y}(y) = f_{X}(\phi(y)) || J_{\phi} || $$

ここで、$| J_{\phi} |$はヤコビアンであり$|| J_{\phi} ||$はヤコビアンの絶対値である。

$$ | J_{\phi} | = \cfrac{dx}{dy} $$

いま、$\alpha = \beta = \cfrac{1}{\kappa}$をパラメータにもつ対称ベータ分布に従う確率変数$X$について、$\phi : X = \cfrac{Y + 1}{2}$とすると、 $$ | J_{\phi} | = \cfrac{dx}{dy} = \cfrac{1}{2} $$ だから、 $$ \begin{split} g_{Y}(y) &= \cfrac{1}{2\mathrm{B}\left(\cfrac{1}{\kappa}, \cfrac{1}{\kappa}\right)} \left(\cfrac{y+1}{2}\right)^{\cfrac{1}{\kappa}-1} \left(1 - \cfrac{y+1}{2}\right)^{\cfrac{1}{\kappa}-1} \\\\ &= \cfrac{2^{\cfrac{\kappa - 2}{\kappa}}}{\mathrm{B}\left(\cfrac{1}{\kappa},\cfrac{1}{\kappa}\right)}\left( 1 - y ^ 2\right)^\cfrac{1-\kappa}{\kappa} \end{split} $$ ここで、確率変数$Y$の定義域は$-1\leq y\leq 1$であり、相関係数の定義域と一致する。よって上式において$y$を$\rho$に置き換えてやれば$(3)$式となる。

その他のパラメータ$\mu_X$、$\mu_Y$、$\sigma_X$、$\sigma_Y$は比較するモデルに共通して存在するパラメータなので、それらの事前分布の設定が$\rho$に対する周辺尤度の値にほとんど影響しませんが、平均値の差の検定のときと同様に、Jeffreysの事前分布を設定します。

◆平均パラメータ、分散パラメータの事前分布

平均パラメータ$\mu_X$、$\mu_Y$、分散パラメータ$\sigma_X^2$、$\sigma_Y^2$の事前分布$\pi(\mu_X)$、$\pi(\mu_Y)$、$\pi(\sigma_X^2)$、$\pi(\sigma_Y^2)$はJeffreysの事前分布を適用する。

$$ \pi(\mu_X) \propto 1 \tag{4} $$

$$ \pi(\mu_Y) \propto 1 \tag{5} $$

$$ \pi(\sigma_X^2) \propto \cfrac{1}{\sigma_X^2} \tag{6} $$

$$ \pi(\sigma_Y^2) \propto \cfrac{1}{\sigma_Y^2} \tag{7} $$

まとめ

本記事では以下の内容について整理しました。

  • 相関係数のおさらいと性質の確認

  • 相関係数を考慮した2変量のモデル化

  • 相関パラメータの事前分布は拡張対称ベータ分布

実践編はこちらです。複数の方法を使ってベイズファクターを実際に計算してみたいと思います。

コメントを書く


※ コメントは承認されると表示されます

承認されたコメント一覧