この記事について

情報量基準などのモデル選択基準について得た断片的な知識をまとめたい。自分の力では一生断片的な知識としかならないだろうが、ブログに残しておくことで少しでも自分の中で体系化できたらいな。随時更新予定？

memo

情報量基準は、候補モデルが将来得られるデータをどの程度精度よく予測できるかを評価したもの。

1. カルバック・ライブラー情報量基準

1.1. 定義

$y$ を目的変数、 $x$ を説明変数とする。カルバック・ライブラー情報量基準は、 $y$ についての2つの生成分布に比の対数について、真のデータ生成分布で期待値をとったものとみなすことができる。

カルバック・ライブラー(KL)情報量基準

$q (x)$ を真のデータ生成分布、 $f (x)$ をデータ予測モデルとしたとき、カルバック・ライブラー情報量基準は以下で定義される。

$\begin{matrix} (1) & D (f; q) = E_{q} [\log \frac{q (x)}{f (x)}] = \int_{- \infty}^{\infty} q (x) \log \frac{q (x)}{f (x)} d (x) \end{matrix}$

1.2. 性質

KL情報量基準は以下のような性質を持つ。これらの性質は2つのデータ生成分布の差としてイメージしやすいと思う。

非負性 $D (f; q) > 0$
完備性 $D (f; q) = 0 のとき f = q$

カルバック・ライブラー情報量基準は予測モデル $f (x)$ の平均的な予測の良さを表現する。ただし通常データ生成分布は未知であるからこれは計算できない。

2. AIC（赤池情報量基準）

2.1. 平均対数尤度

カルバック・ライブラー情報量基準は以下の通り対数尤度の期待値の差としても表現できる。

\begin{matrix} (2) & D (f; q) = E_{q} [\log q (x)] - E_{q} [\log f (x)] = \int_{- \infty}^{\infty} q (x) \log q (x) d x - \int_{- \infty}^{\infty} q (x) \log f (x) d x \end{matrix}

特に母数が所与のもとでは、 $$

\mathcal{D}(f;q) = \int_{-∞}^{∞}q(x)\log q(x) dx - \int_{-∞}^{∞}q(x)\log f(x | \theta) dx \tag{3} $$

第2項は対数尤度 $f (x | θ)$ を真の生成分布について期待値をとったものであり、平均対数尤度と呼ぶ。
情報量の算出理由が候補モデル間の比較である場合、第1項は共通であるから、第2項の平均対数尤度のみで比較すればよいことが分かる。
しかしこれも真のデータ生成分布が未知の場合は評価不能。そこで、将来得られるデータに対する予測の良さの観点から平均対数尤度を比較するため、平均対数尤度について確率変数 $X$ に関する期待値をとる。

\begin{matrix} (4) & E_{X} [E_{q} [[\log f (x | θ)]] \end{matrix}

これを期待平均対数尤度とよぶ。

2.2. AICの定義・導出

AIC(赤池情報量基準)は前節の期待平均対数尤度を近似することから導出されるものである。

以下で定義される最大対数尤度

\begin{matrix} (5) & \log L_{m a x} (x | θ) = \sum_{n = 1}^{N} \log f (x_{n} | \hat{θ}) \end{matrix}

を用いて、期待平均対数尤度を

\begin{matrix} (6) & E_{X} [E_{q} [[\log f (x | θ)]] \approx \frac{\log L_{m a x} (x | θ)}{N} \end{matrix}

と近似する。さらに母数の数についてバイアス補正し、 $- 2 N$ 倍することにより、下記AICが導出される。

AIC AICは下記式で定義される。

\begin{matrix} (7) & - 2 \log L_{m a x} (x | \hat{θ}) + 2 p \end{matrix}

ただし、

p

はモデル中の未制約母数の数。

AICの値が小さい程よいモデルであるとみなす。

(7)

式は対数尤度が高いモデルをなるべく少ない母数の数で達成しようとするものであるとみなすことが出来る。

2.3. AICの適用制限

AICは、以下の条件が満たされる場合のみに適用可能。らしい。

$q (x) = f (x | θ)$ となる母数が存在する
尤度関数（事後分布）が正規分布で近似可能

そのため、多くのベイジアンモデルでは、事後分布が正規分布で近似できないため、AICを用いることが出来ない。代わりに交差検証法やWAICを用いる。

3. 交差検証法

3.1. 交差検証法

モデル評価のもう一つの方法に交差検証法がある。交差検証法も将来得られるデータ $x^{*}$ に対する平均対数尤度

\begin{matrix} (8) & E_{q} [\log f (x^{*} | θ)] = \int_{- \infty}^{\infty} q (x^{*}) \log f (x^{*} | θ) d x \end{matrix}

の推定量を検証する。

3.2. LOOCV（1個抜き交差検証法）

LOOCV(1個抜き交差検証法)では、テストデータとして $x$ のなかから $x_{k}$ だけを用い、それ以外をトレーニングデータとして利用する、という手続きを $N$ 個の点に対して繰り返し適用し、モデル性能を評価する。

3.3. MCMC標本を用いたLOOCVの推定

まずは一般の交差検証法について、MCMC標本を用いた推定方法を考える。

$K$ 個のデータをテスト用のデータとして用いた状態で、それ以外をトレーニングデータとして推定した候補モデルを用いて、テストデータ $x^{*}$ に関する尤度を

\begin{matrix} (9) & f^{(- K)} (x^{*} | θ) \end{matrix}

と表す。モデルは母数

θ

を持っているので、母数事後分布

f (θ)

が得られた状況下では、

(9)

式に関する対数予測密度

\begin{matrix} (10) & l p d = \log \int_{- \infty}^{\infty} f^{(- K)} (x^{*} | θ) f (θ) d θ \end{matrix}

を評価できる。これは1組のトレーニングデータ・テストデータを用いてテストデータ $x^{*}$ に関する候補モデルの尤度の $f (θ)$ に対する期待値をとったものである。

これをMCMC標本を用いて近似する場合には、

\begin{matrix} (11) & l p d \approx \log {[\frac{1}{T} \sum_{t = 1}^{T} f (x^{*} | θ^{(t)})]}^{(- K)} \end{matrix}

とすればよい。ここで $T$ はMCMC標本の数、 $θ^{(t)}$ は母数の1MCMC標本である。右上の $(- K)$ は $K$ 個のデータをテストデータとして推定から除外した状態であることを意味する。

LOOCVのときも同様にして、

\begin{matrix} (12) & l p d_{l o o} = \log \int_{- \infty}^{\infty} f^{(- k)} (x_{k} | θ) f (θ) d θ \approx \log {[\frac{1}{T} \sum_{t = 1}^{T} f (x_{k} | θ^{(t)})]}^{(- k)} \end{matrix}

を $(8)$ 式の推定量として計算できる。ここで右上の $(- k)$ は $k$ 番目の標本をテストデータとして推定から除外した状態を意味する。

あとはすべての $k$ について $(12)$ 式を足し上げればよい。

LOOCVによる平均対数尤度の推定量（対数点別予測密度）

LOOCVにおける候補モデルのデータに対する予測精度は、

$\begin{matrix} (13) & l p p d_{l o o} \approx \sum_{k = 1}^{N} \log {[\frac{1}{T} \sum_{t = 1}^{T} f (x_{k} | θ^{(t)})]}^{(- k)} \end{matrix}$

で与えられる。これを対数点別予測密度という。

4. WAIC

WAIC(Widely Applicable Information Criterion)は、2010年に東京工業大学の渡辺先生が考案した情報量基準。 LOOCVと同様に、将来得られるデータに対する平均対数尤度（ $(8)$ 式）を推定することを目的とする。

$(8)$ 式はデータ生成分布について期待値を取る必要があるが、今までと同様データ生成分布は未知であるから計算できない。今度はデータ生成分布を事後分布で近似することを考える。

\begin{matrix} (14) & e l p p d = \sum_{i = 1}^{N} E_{p o s t} [\log f (x_{i}^{*} | θ)] (\approx E_{q} [\log f (x^{*} | θ)]) \end{matrix}

$(14)$ 式の $e l p p d$ は期待対数点別予測密度と呼ばれる。これをMCMCサンプルを用いて近似計算することを考える。

まず、将来得られる1つのデータ $x_{i}$ に対する予測精度の評価値 $l p d$ を以下の通り再定義する。

\begin{matrix} (15) & l p d_{W A I C} = \log [\frac{1}{T} \sum_{t = 1}^{T} f (x_{i} | θ^{(t)})] (\approx E_{p o s t} [\log f (x_{i} | θ)]) \end{matrix}

これを $N$ 個すべてのデータ点で足し上げれば、 $(14)$ 式のMCMCサンプルを用いた近似値 $l p p d_{W A I C}$ （対数点別予測密度）を得ることができる。

\begin{matrix} (16) & l p p d_{W A I C} = \sum_{i = 1}^{N} \log [\frac{1}{T} \sum_{t = 1}^{T} f (x_{i} | θ^{(t)})] (\approx \sum_{i = 1}^{N} E_{p o s t} [\log f (x_{i} | θ)]) \end{matrix}

ただし、 $(16)$ 式からわかるように、将来得られるデータとして既に得られた標本を用いている為、学習データに箇条適合してしまっている。その修正項として以下の有効パラメータと呼ばれる項をペナルティとして $(16)$ 式に考慮する。

\begin{matrix} (17) & p_{W A I C} = \sum_{i = 1}^{N} V_{p o s t} [\log f (x_{i} | θ)] \end{matrix}

以上を踏まえ、また式の形をAICに合わせることで、WAICは下記の通り定義される。

WAIC Waicは下記式で定義される。

\begin{matrix} (18) & W A I C = - 2 \sum_{i = 1}^{N} \log [\frac{1}{T} \sum_{t = 1}^{T} f (x_{i} | θ^{(t)})] + 2 \sum_{i = 1}^{N} V_{p o s t} [\log f (x_{i} | θ)] \end{matrix}

WAICは、事後分布が正規分布で近似できないような多くのベイジアンモデルにおいても適用可能な情報量基準量である。

2020.12.30 00:00

モデル選択基準