ベイズ統計学を勉強していると、多変量正規分布の条件つき分布の使用は避けては通れません。
つまり、$\boldsymbol{x}=(\boldsymbol{x_1}, \boldsymbol{x_2})$が多変量正規分布$MVN(\boldsymbol{\mu},\mathbf{\Sigma})$にしたがうとします。 ただし、各パラメータの定義は以下です。
$$
\boldsymbol{\mu}=\begin{pmatrix}\boldsymbol{\mu_1} \\
\boldsymbol{\mu_2}\end{pmatrix}, \
\mathbf{\Sigma}=\begin{pmatrix}\mathbf{\Sigma_{11}} & \mathbf{\Sigma_{12}} \\
\mathbf{\Sigma_{21}} & \mathbf{\Sigma_{22}} \end{pmatrix}, \
\mathbf{\Lambda} = \mathbf{\Sigma}^{-1}=\begin{pmatrix}\mathbf{\Lambda_{11}} & \mathbf{\Lambda_{12}} \\
\mathbf{\Lambda_{21}} & \mathbf{\Lambda_{22}} \end{pmatrix}
$$
このとき、$\boldsymbol{x_2}$の値が所与のときの$\boldsymbol{x_1}$の分布は以下のようになります。
$$
\begin{align*}
p(\boldsymbol{x_1}|\boldsymbol{x_2}) &= N(\boldsymbol{x_1}|\boldsymbol{\mu_{1|2}},\mathbf{\Sigma_{1|2}}) \\
\boldsymbol{\mu_{1|2}} & = \boldsymbol{\mu_1} + \mathbf{\Sigma_{12}}\mathbf{\Sigma_{22}^{-1}}(\boldsymbol{x_2}-\boldsymbol{\mu_2}) \\
\mathbf{\Sigma_{1|2}} &= \mathbf{\Sigma_{11}} – \mathbf{\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}} = \mathbf{\Lambda_{11}^{-1}}
\end{align*}
$$
この式は、状態空間モデルや因子分析、欠損値補完やガウス過程など、ベイズ統計の多様な分野で頻繁に用いられる式です。
しかし、形が若干複雑なため、私はいつまでもこの式を覚えることができません。。。勉強中にこれが使われている場面に出くわす度に「あーこんな感じだったけなー」と雰囲気で覚えていました。
ただ、あまりに出現頻度が多いため、いつでも参照可能な自分のブログに備忘録として残そうと思い立ちました。また、この式の証明について書かれている本はあまり無いようなので、ついでに証明も残しておくことにしました。
証明まで1つの記事に書き連ねると冗長になってしまうので、2〜3つの記事に分けて投稿する予定です。
ブロック行列の逆行列
今回は証明の道具として用いるブロック行列の逆行列について解説します。
以下の正方行列$\mathbf{M}$を考えます。
$$
\mathbf{M} = \begin{pmatrix} \mathbf{E} & \mathbf{F} \\ \mathbf{G} & \mathbf{H} \end{pmatrix}
$$
このとき、$\mathbf{M}$の逆行列は以下になります。
$$
\begin{align}
\mathbf{M^{-1}} &= \begin{pmatrix}
(\mathbf{M}/\mathbf{H})^{-1} & –(\mathbf{M}/\mathbf{H})^{-1}\mathbf{FH}^{-1} \\
-\mathbf{H^{-1}G}(\mathbf{M}/\mathbf{H})^{-1} & \mathbf{H}^{-1}+\mathbf{H}^{-1}\mathbf{G}(\mathbf{M}/\mathbf{H})^{-1}\mathbf{FH}^{-1}
\end{pmatrix} \\
&= \begin{pmatrix}
\mathbf{E}^{-1} + \mathbf{E}^{-1}\mathbf{F}(\mathbf{M}/\mathbf{E})^{-1}\mathbf{GE}^{-1} & -\mathbf{EF}(\mathbf{M}/\mathbf{E})^{-1} \\
-(\mathbf{M}/\mathbf{E})^{-1}\mathbf{GE}^{-1} & (\mathbf{M}/\mathbf{E})^{-1}
\end{pmatrix}
\end{align}
$$
ただし、
$$
\begin{align}
\mathbf{M/H} = \mathbf{E} – \mathbf{FH}^{-1}\mathbf{G} \\
\mathbf{M/E} = \mathbf{H} – \mathbf{GE}^{-1}\mathbf{F}
\end{align}
$$
です。この$\mathbf{M/H}$を、$\mathbf{M}$の$\mathbf{H}$に関するシューア補行列といいます。同様に、$\mathbf{M/E}$も$\mathbf{M}$の$\mathbf{E}$に関するシューア補行列といいます。
証明
行列$\mathbf{M}$の左側から$\mathbf{X}=\begin{pmatrix}\mathbf{I} & -\mathbf{FH}^{-1} \\ \mathbf{O} & \mathbf{I} \end{pmatrix}$をかけ、以下のように変形します。
$$
\mathbf{XM} =
\begin{pmatrix}
\mathbf{I} & -\mathbf{FH}^{-1} \\
\mathbf{O} & \mathbf{I}
\end{pmatrix}
\begin{pmatrix}
\mathbf{E} & \mathbf{F} \\
\mathbf{G} & \mathbf{H}
\end{pmatrix}=
\begin{pmatrix}
\mathbf{E} – \mathbf{FH}^{-1}\mathbf{G} & \mathbf{O} \\
\mathbf{G} & \mathbf{H}
\end{pmatrix}
$$
右辺の行列に、さらに行列$\mathbf{Z} = \begin{pmatrix}\mathbf{I} & \mathbf{O} \\ -\mathbf{H}^{-1}\mathbf{G} & \mathbf{I} \end{pmatrix}$を右からかけます。
$$
\begin{align}
\mathbf{XMZ} &=
\begin{pmatrix}
\mathbf{E} – \mathbf{FH}^{-1}\mathbf{G} & \mathbf{O} \\
\mathbf{G} & \mathbf{H}
\end{pmatrix}
\begin{pmatrix}
\mathbf{I} & \mathbf{O} \\
-\mathbf{H}^{-1}\mathbf{G} & \mathbf{I}
\end{pmatrix} \\
& = \begin{pmatrix}
\mathbf{E} – \mathbf{FH}^{-1}\mathbf{G} & \mathbf{O} \\
\mathbf{O} & \mathbf{H}
\end{pmatrix} \\
& = \begin{pmatrix}\mathbf{M}/\mathbf{H} & \mathbf{O} \\ \mathbf{O} & \mathbf{H}\end{pmatrix} \\
& \stackrel{\text{def}}{=}\mathbf{W}
\end{align}
$$
以上の変形から$\mathbf{XMZ} = \mathbf{W}$となりました。この両辺に左から$\mathbf{X}^{-1}=\begin{pmatrix}\mathbf{I} & \mathbf{FH}^{-1} \\ \mathbf{O} & \mathbf{I}\end{pmatrix}$を、右から$\mathbf{Z}^{-1}=\begin{pmatrix}\mathbf{I} & \mathbf{O} \\ \mathbf{H}^{-1}\mathbf{G} & \mathbf{I} \end{pmatrix}$をかけ、両辺の逆行列をとります。
$$
\begin{align}
\mathbf{XMZ} &= \mathbf{W} \\
\mathbf{M} &= \mathbf{X}^{-1}\mathbf{W}\mathbf{Z}^{-1} \\
\mathbf{M}^{-1} &= (\mathbf{X}^{-1}\mathbf{W}\mathbf{Z}^{-1})^{-1} \\
&= \mathbf{Z}\mathbf{W}^{-1}\mathbf{X}
\end{align}
$$
$\mathbf{W}$はブロック対角行列なので、$\mathbf{W}^{-1}=\begin{pmatrix}(\mathbf{M}/\mathbf{H})^{-1} & \mathbf{O} \\ \mathbf{O} & \mathbf{H}^{-1}\end{pmatrix}$となります。
よって、
$$
\begin{align}
\mathbf{M}^{-1} &= \mathbf{Z}\mathbf{W}^{-1}\mathbf{X} \\
&= \begin{pmatrix}\mathbf{I} & \mathbf{O} \\ -\mathbf{H}^{-1}\mathbf{G} & \mathbf{I} \end{pmatrix}
\begin{pmatrix}(\mathbf{M}/\mathbf{H})^{-1} & \mathbf{O} \\ \mathbf{O} & \mathbf{H}^{-1}\end{pmatrix}
\begin{pmatrix}\mathbf{I} & -\mathbf{FH}^{-1} \\ \mathbf{O} & \mathbf{I} \end{pmatrix} \\
&= \begin{pmatrix}
(\mathbf{M}/\mathbf{H})^{-1} & –(\mathbf{M}/\mathbf{H})^{-1}\mathbf{FH}^{-1} \\
-\mathbf{H^{-1}G}(\mathbf{M}/\mathbf{H})^{-1} & \mathbf{H}^{-1}+\mathbf{H}^{-1}\mathbf{G}(\mathbf{M}/\mathbf{H})^{-1}\mathbf{FH}^{-1}
\end{pmatrix}
\end{align}
$$
となり、1つ目の式が証明できました。
2つ目の式については、$\mathbf{M}$の左から$\begin{pmatrix}\mathbf{I} & \mathbf{O} \\ -\mathbf{GE}^{-1} & \mathbf{I}\end{pmatrix}$、右から$\begin{pmatrix}\mathbf{I} & -\mathbf{E}^{-1}\mathbf{F} \\ \mathbf{O} & \mathbf{I}\end{pmatrix}$をかけ、同様の手順を踏めば導出できます。
ブロック行列の行列式
ブロック行列$\mathbf{M}$の逆行列の証明を行いましたが、実際に多変量正規分布の条件つき分布の導出に重要となってくるのは、途中で出てくる以下の式です。
$$
\begin{align}
\mathbf{M} &= \mathbf{X}^{-1}\mathbf{W}\mathbf{Z}^{-1} \\
&= \begin{pmatrix} \mathbf{I} & \mathbf{FH}^{-1} \\ \mathbf{O} & \mathbf{I} \end{pmatrix}
\begin{pmatrix}\mathbf{M}/\mathbf{H} & \mathbf{O} \\ \mathbf{O} & \mathbf{H} \end{pmatrix}
\begin{pmatrix}\mathbf{I} & \mathbf{O} \\ \mathbf{H}^{-1}\mathbf{G} & \mathbf{I} \end{pmatrix} \\
\mathbf{M}^{-1} &= \mathbf{Z}\mathbf{W}^{-1}\mathbf{X} \\
&= \begin{pmatrix}\mathbf{I} & \mathbf{O} \\ -\mathbf{H}^{-1}\mathbf{G} & \mathbf{I} \end{pmatrix}
\begin{pmatrix}(\mathbf{M}/\mathbf{H})^{-1} & \mathbf{O} \\ \mathbf{O} & \mathbf{H}^{-1}\end{pmatrix}
\begin{pmatrix}\mathbf{I} & -\mathbf{FH}^{-1} \\ \mathbf{O} & \mathbf{I} \end{pmatrix}
\end{align}
$$
これらの式を、共分散行列$\mathbf{\Sigma}$の分解や行列式の計算に使用します。ここでは$|\mathbf{M}|$の計算結果を導出してみます。
$$
\begin{align}
|\mathbf{M}| &= | \mathbf{X}^{-1}\mathbf{WZ}^{-1} | \\
&= \lvert \begin{pmatrix} \mathbf{I} & \mathbf{FH}^{-1} \\ \mathbf{O} & \mathbf{I} \end{pmatrix}
\begin{pmatrix}\mathbf{M}/\mathbf{H} & \mathbf{O} \\ \mathbf{O} & \mathbf{H} \end{pmatrix}
\begin{pmatrix}\mathbf{I} & \mathbf{O} \\ \mathbf{H}^{-1}\mathbf{G} & \mathbf{I} \end{pmatrix} \rvert \\
&= \begin{vmatrix} \mathbf{I} & \mathbf{FH}^{-1} \\ \mathbf{O} & \mathbf{I} \end{vmatrix}
\begin{vmatrix}\mathbf{M}/\mathbf{H} & \mathbf{O} \\ \mathbf{O} & \mathbf{H} \end{vmatrix}
\begin{vmatrix}\mathbf{I} & \mathbf{O} \\ \mathbf{H}^{-1}\mathbf{G} & \mathbf{I} \end{vmatrix}
\end{align}
$$
零行列を含んでいる行列の行列式は、対角成分の行列式の積の形にできます。すると、最初と最後の行列式は対角成分が単位行列なので、値は1になります。よって、
$$
|\mathbf{M}| = |\mathbf{M}/\mathbf{H}| |\mathbf{H}|
$$
となります。
まとめ
今回は、ブロック行列の逆行列や行列式に関する定理や証明をご紹介しました。
次回は今回の結果を利用して、本命である多変量正規分布の条件つき分布に関する定理の証明を行います。
(久しぶりにTex記法をしっかり使ったけど、結構忘れてた。。。)
参考: