モデル
参考文献に掲載されたグラフィカルモデルを拝借して以下に示します。またここでは、一つ目の例の対応の無い交差点間の危険挙動割合の比較に着目して考えます。
ここで、$n_1$、$n_2$はそれぞれ交差点1、交差点2における車両毎の危険挙動に関するデータ(0=「危険挙動無し」 OR 1「危険挙動あり」)の標本数、$s_1$、$s_2$はそれぞれ交差点1、交差点2において危険挙動をした車両の台数です。交差点ごとに、独立の二項分布に従い危険挙動をした車両が観測されたと仮定し、発生確率を$\theta_1$、$\theta_2$とおきモデル化します。
このとき、我々の興味の対象となる確率変数は$\delta=\theta_1 - \theta_2$です。$\theta_1$、$\theta_2$の大小関係についての事前知識がある場合と無い場合に分け、2つの帰無仮説・対立仮説の組を設定します。交差点の比較の例では、交差点2は交差点1と同じ形状であり、信号機が設置されていることから、危険挙動発生率は交差点1より少ない、すなわち$\theta_1 > \theta_2$ではないか、と考えることができます。
$\theta_1$、$\theta_2$には、無情報事前分布$\mathrm{Uniform}(0,1)$を設定することとします。
ところで、ここまでグラフィカルモデルは対応のないグループ間の比率の差の検定を考えていましたが、冒頭で言ったように、対応のあるグループについても同じモデルで包括出来てしまいます。ここではその理由について説明しようと思います。
対応のあるグループ間の比率の差を考えたい場合のグラフィカルモデルは以下のようになります。
$\theta_1$、$\theta_2$、$\delta$の三角関係が変わっていますが、$\theta_1$と$\theta_2$まわりの尤度計算は対応の無い場合と同じです。さらに$\theta_1$、$\delta$に図示の無情報事前分布を設定してやると、$\theta_2$の事前分布は$\mathrm{Uniform}(0,1)$と、対応の無い場合と同じ事前分布になってしまいます。つまり、$\theta_1$、$\theta_2$の尤度関数と事前分布が対応の場合と同じになってしまうのです。$\delta$は$\theta_2-\theta_1$と、二つの確率変数の差の分布から求まりますから、$\delta$の事後分布は対応の無い場合の事後分布の$y$軸反転になります。よって、比率の差の検定においてはモデル上、対応の有無を問わず一つのモデルで説明出来てしまうのです。(以上、色々考えた上での私見なんですが、どうなんでしょう?)
ベイズファクターを解析的に求める
設定した仮説から分かる通り、本検定はネストされたモデル間の比較を行うので、以前の記事で紹介したSavage-Dickey法を使えばよいと分かります。Savage-Dickey法は、$H_1$に対応するモデルにおける事前分布と事後分布を一点比較をすればベイズファクターを算出できると主張しています。今回の事例では比較する点は$\delta=0$です。つまり
$$ BF_{01} = \cfrac{p(\delta=0 | D, H_1)}{p(\delta=0 |H_1)} \tag{5} $$
ということになります。ここで$D$は全データセットを示します。
この節では本モデルにおける$\delta$の事前分布、事後分布について考え、ベイズファクターを解析的に求めてみます。
まずは$\delta$の事前分布です。
証明は以下を参照のこと。証明では確率変数の変換公式を応用して確率変数の和(差)の分布を求めるテクニックを用います。
事前分布について$p(\delta=0 |H_1)=1$であることがわかりました。よって、$BF_{01} = p(\delta=0 | D, H_1)$となります。
これを求めた結果を示します。
証明は以下を参照のこと。周辺尤度を無視した事後分布の計算と、確率変数の変換公式を応用して確率変数の和(差)の分布を求めるテクニックを用います。
おわりに
今回は、比率の差をベイズファクターを使って検定する手法を整理しました。本内容の実践版はこちらの姉妹記事を参照してください。姉妹記事では解析的にベイズファクターを計算するだけではなく、MCMCを用いた近似手法でも計算しています。なぜ精度の劣る方法で…と思うかもしれませんが、従来通りの検定に対応する帰無仮説・対立仮設の設定に留まらず、片側検定に対応する仮説の比較をすることもできることにそのメリットがあります。詳しくは姉妹記事を参照のこと。