はじめに

前回の記事では、特定の分布や関係を仮定せず、与えられたデータに柔軟に対応することのできるモデルということで、ガウス過程回帰について取り上げました。

本記事ではガウス過程をさらに深堀りし、Stanなどでガウス過程を自在に扱うための土台を固めたいと思います。

本記事の構成は以下の通りとします。

はじめに
ガウス過程の導入
ガウス過程潜在変数モデル
ガウス過程の予測分布
カテゴリカルな変数を用いたカーネル
まとめ

特に以下2章は力を入れました。

「ガウス過程潜在変数モデル」 Stan等でガウス過程を様々なモデルに活用するために不可欠
「カテゴリカルな変数を用いたカーネル」質的変数が入力に含まれる場合にも、ガウス過程を適用できるようにするための方法を説明

当初本記事と次回の記事はひとつの記事として公開していましたが、余りにも長すぎる記事だったので、二つに分けました。

ガウス過程の導入

まず、ガウス過程を用いたモデルについて一般化します。
入力の要素数を数を $I$ とし、入力データの1サンプルを $x = (x_{1}, \dots, x_{I})^{T}$ と表記し、全入力を $N \times I$ 行列 $x$ を用いて $X = (x_{1}, \dots, x_{N})^{T}$ とおきます。また出力データを $y = (y_{1}, \dots, y_{N})^{T}$ とおきます。

ガウス過程モデルの一般式は以下になります。

$\begin{matrix} (1) & y (x) = β f (x) + ϵ (x) \end{matrix}$

ここで $f = (f_{1} (x), \dots, f_{l} (x))$ 、 $β = (β_{1}, \dots, β_{l})$ はそれぞれ、ガウス過程モデルとは別で設定された特徴ベクトルとその重みです。これらはガウス過程を適用する以前からデータにあてはめられたモデルになります。

$ϵ (x)$ は右辺第一項のモデルで説明しきれなかった残差としての扱いですが、この残差がガウス過程に従うと仮定します。ガウス過程モデルは得られたデータに柔軟に近づこうとする挙動をとりますので、この性質を利用して右辺第一項で説明できなかった部分をガウス過程で補おうという目論見です。

各入力の誤差項が同じ標準偏差 $σ$ をとると設定できたとき、 $ϵ (x) = (ϵ (x_{1}), \dots, ϵ (x_{N}))$ が以下のガウス過程に従うとします。

$\begin{matrix} (2) & ϵ (x) \sim Normal (0, σ^{2} K) \end{matrix}$

上式では $ϵ$ が残差を説明するものであることから多変量正規分布の平均を0としています。また分散共分散行列 $K$ は、ハイパーパラメータ $ϕ$ を持つカーネル関数 $k_{ϕ} (x_{m}, x_{n})$ を要素に持つ $N$ × $N$ 行列です( $m, n = 1, \dots, N$ )。

$\begin{matrix} (3) & K (m, n) = k_{ϕ} (ϵ (x_{m}), ϵ (x_{n})) \end{matrix}$

各入力の標準偏差を $σ$ で設定している為、 $K$ の $(m, n)$ 成分は、 $ϵ (x_{m})$ と $ϵ (x_{n})$ の相関に等しくなり、

$\begin{matrix} (4) & k_{ϕ} (ϵ (x_{m}), ϵ (x_{n})) = cor (ϵ (x_{m}), ϵ (x_{n})) \end{matrix}$

となります。

ガウス過程では、カーネル関数によって $x_{m}$ と $x_{n}$ の距離を定める空間を決定し、入力 $x_{m}$ と $x_{n}$ の距離によって出力 $ϵ (x_{m})$ と $ϵ (x_{n})$ の近さを決定します。また、カーネル関数によって決まる値は、 $cor (ϵ (x_{m}), ϵ (x_{n}))$ と解釈することができる、ということです。

ガウス過程潜在変数モデル

多変量正規分布のサンプリング

$(2)$ 式で用いられる多変量正規分布について、ランダムにサンプルを得る方法を紹介します。

平均0、分散共分散行列 $Σ$ の多変量正規分布からのサンプルを得る場合、まず

$\begin{matrix} (5) & Σ = L L^{T} \end{matrix}$

を満たす行列 $L$ を求めます。 $(4)$ 式のような行列の分解はコレスキー分解と呼ばれます。

次に、標準正規分布からの乱数 $x = (x_{1}, \dots, x_{N})$ を生成します。

$\begin{matrix} (6) & x \sim Normal (0, 1) \end{matrix}$

$y = L x$ の分布は、

\begin{matrix} (7) & p (x) = \frac{1}{({\sqrt{2 π}}^{N} \sqrt{\det Σ})} \exp (- \frac{1}{2} (x^{T} I^{- 1} x)) \propto \exp (- \frac{1}{2} x^{T} I^{- 1} x) \end{matrix}

に $x = L^{- 1} y$ を代入すると、変数変換による空間の単位当たり面積の変動を調整するヤコビアン $| \partial y / \partial x |$ は定数だから、

\begin{matrix} (8) & p (L x) \propto \exp (- \frac{1}{2} {(L^{- 1} y)}^{T} I^{- 1} L^{- 1} y) | \frac{\partial y}{\partial x} | = \exp (- \frac{1}{2} y^{- 1} {(L^{- 1})}^{T} L^{- 1} y) = \exp (- \frac{1}{2} y^{- 1} {(L L^{T})}^{- 1} y) = \exp (- \frac{1}{2} y^{T} Σ^{- 1} y) \end{matrix}

となります。

このことから、 $Normal (0, Σ)$ に従う乱数を生成するには、標準正規分布に従う $x$ をランダムに生成し、 $y = L x$ と変換すればよいと分かります。

ガウス過程潜在変数モデルとは

モデルの残差 $ϵ (x)$ がガウス過程に従うとした $(2)$ 式を、先ほど紹介した多変量正規分布の乱数生成法を用いて変形すると、

$K = L L^{T}$ $\begin{matrix} (9) & η \sim N o r m a l (0, 1) \end{matrix}$ $ϵ (x) = L η$

となります。（ $η = (η_{1}, \dots, η_{n})$ ）このように、潜在変数 $η$ を用いたガウス過程は、ガウス過程潜在変数モデル(Latent variable GP)と呼ばれ、出力が正規分布でないとき等に有用です。

Stanでの実装

以下、Stanマニュアルを引用してLatent variable GPの実装について軽く触れておきます。

Latent variable GPのStanでの実装は以下のようになります。

data{
  int<lower=1> N;
  real x[N];
  vector[N] y;
}

transformed data{
  real delta = 1e-9;
}

parameters {
  real<lower=0> rho;
  real<lower=0> alpha;
  real<lower=0> sigma;
  vector[N] eta;
}

model {
  vector[N] f;
  {
    matrix[N, N] L_K;
    matrix[N, N] K = cov_exp_quad(x, alpha, rho);

    // diagonal elements
    for (n in 1:N)
      K[n, n] = K[n, n] + delta;

    L_K = cholesky_decompose(K);
    f = L_K * eta;
  }
  eta ~ std_normal();
  y ~ normal(f, sigma);
}

ここで、K = cov_exp_quad(x, alpha, rho)はガウスカーネルをつくる便利な関数で、

\begin{matrix} (10) & K (m, n) = k_{α, ρ} (ϵ (x_{m}), ϵ (x_{n})) = α^{2} \exp (- \frac{1}{2 ρ^{2}} \sum_{i = 1}^{I} (x_{m, i} - x_{n, i})^{2}) \end{matrix}

を要素に持つカーネル行列 $K$ を作成してくれます。

また、for (n in 1:N) K[n, n] = K[n, n] + delta;とすることで、カーネル行列の対角要素に微小な値を加えていますが、こうすることでカーネル行列の逆行列の計算を安定化させています。また、コレスキー分解はその対象が正定値行列であることが必須ですが、対角要素に微小量を加えることで、その行列が正定値行列であることを保証することができます。

式 $(9)$ の3式の計算は、それぞれL_K = cholesky_decompose(K);、eta ~ std_normal();、f = L_K * eta;と指定しています。

上のコードでは、残差ではなく出力 $y$ の平均値が $f \sim Normal (0, K_{ϕ})$ に従うと設定し、y ~ Normal(f, sigma)とすることで、平均 $f$ の正規分布に従うと設定していますが、この部分をポアソン分布等他の分布にすることで、様々なモデルを構築することが出来ます。

例えば、0か1のみをとる出力 $y$ にベルヌーイ分布を仮定し、 $y_{n} = 1$ となる確率 $p = (p_{1}, \dots, p_{N})$ を、入力 $x_{n}$ のガウス過程を用いて説明する場合、

$y \sim Binomial (p)$ $\begin{matrix} (11) & p = inverselogit (f) \end{matrix}$ $f \sim Normal (μ, K)$

と表現でき、これをStanで実行する場合、以下のようになります。

data{
  int<lower=1> N;
  real x[N];
  vector[N] y;
  ...
}

parameters{
  real mu; //muはpの期待値 観測データが近くに無い場合に漸近する値
  ...
}

transformed parameters{
  vector[N]<lower=0, upper=1> p;
  ...
  p = mu + f;
  ...
}
...
model {
  mu ~ std_normal()
  ...
  y ~ bernoulli(p);
}

ガウス過程の予測分布

ガウス過程モデルにおいて、入力 $x$ に含まれない値 $X^{*} = (x_{1}^{*}, \dots, x_{N}^{*})$ に対応する出力の値 $y^{*} = (y_{1}^{*}, \dots, y_{M}^{*})$ を予測したい場合、 $y$ と $y^{*}$ の同時分布を次のようにすればよいです。

$\begin{matrix} (12) & (\begin{array}{ccc} y_{1} \\ ⋮ \\ y_{N} \\ y_{1}^{*} \\ ⋮ \\ y_{M}^{*} \end{array}) \sim N o r m a l (\vec{0}, (\begin{array}{ccc} K & k^{*} \\ k^{* T} & k^{* *} \end{array})) \end{matrix}$

ここで、 $k^{*} (n, m) = k_{ϕ} (x_{n}, x_{m}^{*})$ 、 $k^{* *} (m, m) = k_{ϕ} (x_{m}^{*}, x_{m}^{*})$ です。

カテゴリカルな変数を用いたカーネル

前回記事も含めこれまでは連続型変数を扱うことを前提にしていましたが、連続的な値をとらず、絶対的な大小関係ももたない質的変数（カテゴリカルな変数）が入力に含まれる場合、量的変数と質的変数の両方の性質を考慮した空間を定義することのできるカーネルを設定する必要があります。しかし、質的変数には「距離」の概念が無いため、ガウスカーネル等のように、各入力の「近接性」を再現するカーネルで対応することはできません。では、どのようにカーネル関数を設定すればよいのでしょうか。

質的変数が1つの場合

まず、量的変数と質的変数を含んだ入力を $w = (x^{T}, z^{T})^{T}$ とし、 $x = (x_{1}, \dots, x_{I})$ を量的変数、 $z = (z_{1}, \dots, z_{J})$ を質的変数とします。それに従い、 $(1)$ 式、 $(2)$ 式を

$\begin{matrix} (1’) & y (w) = β f (w) + ϵ (w) \end{matrix}$

$\begin{matrix} (2’) & ϵ (z) \sim Normal (0, σ^{2} K) \end{matrix}$

としておきます。

簡略のため、 $m_{1}$ 個の値をとる一つの質的変数 $z_{1}$ について考えます。 $w = (x^{T}, z_{1}) = (x^{T}, u)$ ( $u = 1, \dots, m_{1}$ )における $ϵ (x)$ を、

$\begin{matrix} (13) & ϵ^{*} (x) = (\begin{array}{ccc} ϵ_{1} (x) \\ ⋮ \\ ϵ_{m_{1}} (x) \end{array}) \end{matrix}$

と定義します。すると、量的変数については $ϵ^{*} (x)$ の各要素内でのガウス過程で完結させ、質的変数の影響については、 $ϵ^{*} (x)$ の各要素間の分散共分散行列を決定すれば、量的変数・質的変数双方の差異を考慮した相関関数 $cor (ϵ (w_{m}), ϵ (w_{n}))$ を指定できそうです。そこで、 $ϵ^{*} (x)$ を

$\begin{matrix} (14) & ϵ^{*} (x) = A η (x) \end{matrix}$

と推定することにします。

ここで、 $η (x) = (η_{1} (x), \dots, η_{m 1} (x))^{T}$ は量的変数における「距離」を考慮する部分で、各要素がそれぞれ独立に、標準偏差 $σ$ 、相関関数 $K$ のガウス過程に従って生成されるものとします。

また、 $m_{1} \times m_{1}$ 行列 $A$ は質的変数の影響を考慮する部分で、単位行ベクトル $a_{u}$ ( $a_{u} a_{u}^{T} = 1$ 、 $u = 1, \dots, m_{1}$ )を用いて

$\begin{matrix} (15) & A = (\begin{array}{ccc} a_{1} \\ ⋮ \\ a_{m 1} \end{array}) \end{matrix}$

とし、 $ϵ_{i} (x)$ ( $i = 1, \dots, m_{1}$ )を単位行ベクトル $a_{i}$ の指定する重みに基づく $η (x)$ の要素の線形和で表現することにします。

すると、

\begin{matrix} (16) & cor (η_{z_{1} m} (x_{n}), η_{z_{1} n} (x_{m})) = (\begin{array}{ccc} k_{ϕ} (x_{m}, x_{n}) & 0 & \dots & 0 \\ 0 & k_{ϕ} (x_{m}, x_{n}) & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & k_{ϕ} (x_{m}, x_{n}) \end{array}) \end{matrix}

( $η_{i} (x_{n})$ 、 $η_{i^{'}} (x_{m})$ は $i = i^{'}$ のときのみ $k_{ϕ} (x_{m}, x_{n})$ の相関をとる)だから、2つの入力 $w_{i} = (x_{i}^{T}, z_{i})^{T}$ ( $i = m, n$ )の相関関数 $c o r (ϵ (w_{m}), ϵ (w_{n}))$ について、

\begin{matrix} (17) & a_{z_{1} m} a_{z_{1} n}^{T} k_{ϕ} (x_{m}, x_{n}) = cor (a_{z_{1} m} η (x_{m}), a_{z_{1} n} η (x_{n})) = cor (ϵ_{z_{1} m} (x_{m}), ϵ_{z_{1} n} (x_{n})) = cor (ϵ (w_{m}), ϵ (w_{n})) \end{matrix}

が成り立ちます( $z m, z n = 1, \dots, m_{1}$ )。

ここで、 $τ_{r, s} = a_{r}^{T} a_{s}$ ( $r = z m, s = z n, r, s = 1, \dots, m_{1},$ )とおくと、半正定値行列 $T = A A^{T}$ は、

\begin{matrix} (18) & T = A A^{t} = (\begin{array}{ccc} a_{1} \\ ⋮ \\ a_{m 1} \end{array}) (\begin{array}{ccc} a_{1} & \dots & a_{m 1} \end{array}) = (\begin{array}{ccc} 1 & a_{1} a_{2}^{T} & \dots & a_{1} a_{m 1}^{T} \\ a_{2} a_{1}^{T} & 1 & \dots & a_{2} a_{m 1}^{T} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{m 1} a_{1}^{T} & a_{m 1} a_{m 2}^{T} & \dots & 1 \end{array}) \end{matrix}

と、 $τ_{r, s}$ を $(r, s)$ 成分にもつ対角成分が1の行列(positive definite matrix with unit diagonal elements)になります。

以降、この性質をもつ行列をPDUDEと書きます。

以上のことから、

$\begin{matrix} (19) & T (r, s) k_{ϕ} (x_{m}, x_{n}) = c o r (ϵ (w_{m}), ϵ (w_{n})) \end{matrix}$

は、質的変数と量的変数の影響を考慮することのできる相関関数ととらえることができます。

質的変数が2つ以上の場合

一般的なケースとして、 $J$ 個の質的変数 $z = (z_{1}, \dots, z_{J})^{T}$ の場合を考えます。

ここで、 $z_{j} (j = 1, \dots, J)$ は $1, \dots, m_{j}$ の値をとるものとします。すると、式 $(19)$ の拡張により、 $ϵ (w)$ の相関は関数は以下のようになります。

$\begin{matrix} (20) & \prod_{j = 1}^{J} (τ_{z_{j, r, s}} k_{ϕ} (x_{m}, x_{n})) = c o r (ϵ (w_{m}), ϵ w_{n}) \end{matrix}$

$τ_{j, r, s}$ は、 $J$ 番目のPDUDE $T_{j}$ の $(r, s)$ 成分です。

特に、 $k_{ϕ} (x_{m}, x_{n})$ に式 $(10)$ のガウスカーネルをもちいた場合、 $(20)$ 式は以下のようになります。

\begin{matrix} (21) & \prod_{j = 1}^{J} (τ_{z_{j, r, s}} k_{ϕ} (x_{m}, x_{n})) = \prod_{j = 1}^{J} (τ_{z_{j, r, s}} \exp (- \frac{1}{2 ρ^{2}} \sum_{i = 1}^{I} (x_{i m}, x_{i n})^{2})) = (\prod_{j = 1}^{J} τ_{z_{j, r, s}}) \exp (- \frac{1}{2 ρ^{2}} \sum_{i = 1}^{I} (x_{i m} - x_{i n})^{2}) \end{matrix}

式 $(21)$ は、量的変数の影響は $e x p (- \frac{1}{2 ρ^{2}} \sum_{i = 1}^{I} (x_{i m} - x_{i n})^{2})$ で考慮し、質的変数の影響はそれとは独立に $(\prod_{j = 1}^{J} τ_{z_{j, r, s}})$ で考慮する、という構造を持っています。パラメータ $τ_{z_{j, r, s}}$ は、質的変数 $z_{j}$ について $r = z_{j} m$ をとる入力 $w_{m}$ と、 $s = z_{j} n$ をとる入力 $w_{n}$ の、 $z_{j}$ のみによる共通性(相関)への影響を反映する役割を担っています。なお、式 $(21)$ ではshapeパラメータ $α^{2}$ を考慮していませんが、これは $(2)$ 式でshapeパラメータの役割を $σ$ が受け持っている為です。

モデリングにおいては、 $τ_{z_{j, r, s}}$ は正の値をとるように設定し、任意の2点の入力が無相関もしくは正の相関のみをとるようにします。

制約のあるPDUDE

前節では、PDUDEについて制約を設けない相関行列を用いていました。柔軟なモデリングにおいてはこれで問題ないのですが、質的変数が順序尺度であったり、カテゴリカルな変数であったりするということがあらかじめ自明な場合は、PDUDEに制約を持たせることで、その情報をモデルに反映させることができます。ここでは、sesがカテゴリカルな変数であることから、質的変数がカテゴリカルな場合にPDUDEに設ける制約について説明します。

結論からですが、 $m$ 個の値をとる $z$ がカテゴリカルな場合、下記の $τ_{r, s}$ を $(r, s)$ 成分に持つ等方性を持った $m \times m$ 相関行列 $T$ が用いられます。

$\begin{matrix} (22) & τ_{r, s} = {\begin{cases} c (0 < c < 1) (r \neq s) \\ 1 (r = s) \end{cases} \end{matrix}$

$r = s$ のとき、入力間の相関は $z$ に関しては1、 $r \neq s$ のとき、c(一定)にする、ということです。 $T$ は以下のように分解できます。

\begin{matrix} (23) & T = (1 - c) (\begin{array}{ccc} 1 & 0 & \dots & 0 \\ 0 & 1 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 1 \end{array}) + c (\begin{array}{ccc} 1 \\ 1 \\ ⋮ \\ 1 \end{array}) (1, 1, \dots, 1) \end{matrix}

このとき、任意の $m \times 1$ ベクトル $a$ について、 $\begin{matrix} (24) & a^{T} T a = (1 - c) a^{T} a + c (a^{T} 1)^{2} > 0 \end{matrix}$ だから、 $T$ は正定値行列なので、PDUDEです。 $T$ が正定値行列であることは結構重要で、各要素の値を出力するカーネル関数 $k (z_{m}, z_{n})$ が何かしらの特徴ベクトル空間の内積を表現するために必要な条件です。このあたりの詳細はこちらなどを見てください。また上記 $T$ の各要素を出力する関数はisotropic correlation functionと呼ばれ、isotropic correlation functionによる出力を要素に持つ行列はcompound symmetric correlation matrixと呼ばれています。

上記の $T$ をPDUDEに用いる場合、式 $(21)$ は下記のように変形できます。

\begin{matrix} (25) & (\prod_{j = 1}^{J} τ_{z_{j, r, s}}) \exp (- \frac{1}{2 ρ^{2}} \sum_{i = 1}^{I} (x_{i m} - x_{i n})^{2}) = \prod_{j = 1}^{J} \exp (- \ln (\frac{1}{c}) I [r \neq s]) \exp (- \frac{1}{2 ρ^{2}} \sum_{i = 1}^{I} (x_{i m} - x_{i n})^{2}) = \exp (- \frac{1}{2 ρ^{2}} \sum_{i = 1}^{I} (x_{i m} - x_{i n})^{2} - \sum_{j = 1}^{J} \ln (\frac{1}{c}) I [r \neq s]) \end{matrix}

ここで、 $I [r \neq s]$ は下記の関数になります。

$\begin{matrix} (26) & I [r \neq s] = {\begin{cases} 1 (r \neq s) \\ 0 (r = s) \end{cases} \end{matrix}$

式 $(25)$ 最後の項は、対数をとると

\begin{matrix} (27) & \log (\exp (- \frac{1}{2 ρ^{2}} \sum_{i = 1}^{I} (x_{i m} - x_{i n})^{2} - \sum_{j = 1}^{J} \ln (\frac{1}{c}) I [r \neq s])) = - \frac{1}{2 ρ^{2}} \sum_{i = 1}^{I} (x_{i m} - x_{i n})^{2} - \sum_{j = 1}^{J} \ln (\frac{1}{c}) I [r \neq s] \end{matrix}

となります。よって、対数スケールにおいて、量的変数についてはL2距離を、質的変数については0~1の値をとる距離を使用していることが分かります。

以上、カテゴリカルな変数を用いたカーネルについて説明しました。参考文献はこちらになります。制約のあるPDUDEについては、今回紹介したもののほかにも順序尺度に対するPDUDE,グループ相関に対するPDUDE等紹介されています。

まとめ

今回はガウス過程みまつわる理論を深堀りしてみました。ガウス過程潜在変数モデル、カテゴリカルな変数への対応の2点が重要です。ここで紹介した内容は、次回の記事で実際のデータへ応用し、期待通り機能することを確かめたいと思います。

2020.07.11 00:00

ガウス過程の応用