演習10.19の積分について
演習10.19の積分について(ガウス分布の畳み込み積分)
演習10.19の解答で出てくる積分 \[ \int\N(\bxh|\bmu_k,\bLambda_k^{-1})\N(\bmu_k|\bm_k,(\beta_k\bLambda_k)^{-1})\,d\bmu_k \] の求め方
\[
\newcommand\l{\left}
\newcommand\r{\right}
\newcommand\cmt[1]{\class{Cmt}{\mbox{#1}}}
\newcommand\b[1]{\class{Bold}{\mathrm{#1}}}
\newcommand\bx{\b{x}}
\newcommand\bxh{\widehat \bx}
\newcommand\ba{\b{a}}
\newcommand\bmu{\b{\mu}}
\newcommand\bLambda{\b{\Lambda}}
\newcommand\bm{\b{m}}
\newcommand\bM{\b{M}}
\newcommand\bw{\b{w}}
\newcommand\bb{\b{b}}
\newcommand\bL{\b{L}}
\newcommand\by{\b{y}}
\newcommand\bA{\b{A}}
\newcommand\bI{\b{I}}
\newcommand\bz{\b{z}}
\newcommand\T{\mathrm T}
\newcommand\N{{\cal N}}
\]
直接計算
\[
\begin{align}
&\N(\bxh|\bmu_k,\bLambda_k^{-1})\N(\bmu_k|\bm_k,(\beta_k\bLambda_k)^{-1}) \\
&~~~={1\over|2\pi|^{D/2}}{1\over\l|\bLambda_k^{-1}\r|^{1/2}}
\exp\l\{-{1\over2}(\bxh-\bmu_k)^\T\bLambda_k(\bxh-\bmu_k)\r\} \\
&~~~~~~~~~\cdot{1\over|2\pi|^{D/2}}{1\over\l|(\beta_k\bLambda_k)^{-1}\r|^{1/2}}
\exp\l\{-{1\over2}(\bmu_k-\bm_k)^\T\beta_k\bLambda_k(\bmu_k-\bm_k)\r\} \\
&~~~={1\over|2\pi|^{D/2}}{1\over\l|\bLambda_k^{-1}\r|^{1/2}}
{1\over|2\pi|^{D/2}}{1\over\l|(\beta_k\bLambda_k)^{-1}\r|^{1/2}}
\exp\bigg[-{1\over2}\underset{\color{red}{(1)}}{\l\{(\bxh-\bmu_k)^\T\bLambda_k(\bxh-\bmu_k)+(\bmu_k-\bm_k)^\T\beta_k\bLambda_k(\bmu_k-\bm_k)\r\}}\bigg]
\end{align}
\]
\(\exp\) の中を平方完成する
\[
\begin{align}
\color{red}{(1)} &= \bxh^\T\bLambda_k\bxh -2\bxh^\T\bLambda_k\bmu_k+\bmu_k^\T\bLambda_k\bmu_k
+\bmu_k^\T\beta_k\bLambda_k\bmu_k-2\bm_k^\T\beta_k\bLambda_k\bmu_k+\bm_k^\T\beta_k\bLambda_k\bm_k \\
&=\bmu_k^\T(\bLambda_k+\beta_k\bLambda_k)\bmu_k-2\l(\bxh^\T\bLambda_k+\bm_k^\T\beta_k\bLambda_k\r)\bmu_k+\bxh^\T\bLambda_k\bxh+\bm_k^\T\beta_k\bLambda_k\bm_k
\end{align}
\]
これを
\[
(\bmu_k-\ba)^\T\bLambda(\bmu_k-\ba)=\bmu_k^\T\bLambda\bmu_k-2\ba^\T\bLambda\bmu_k+\ba^\T\bLambda\ba
\]
と見比べて
\[
\begin{align}
\bLambda&=\bLambda_k+\beta_k\bLambda_k = (1+\beta_k)\bLambda_k~~~(\because\ \beta_kはスカラーなので)\\
\ba^\T\bLambda&=\bxh^\T\bLambda_k+\bm_k^\T\beta_k\bLambda_k=(\bxh^\T+\bm_k^\T\beta_k)\bLambda_k \\
\therefore\ \ba^\T&=(\bxh^\T+\bm_k^\T\beta_k)\bLambda_k\bLambda^{-1}
=(\bxh^\T+\bm_k^\T\beta_k)\bLambda_k(1+\beta_k)^{-1}\bLambda_k^{-1}
={1\over1+\beta_k}(\bxh^\T+\bm_k^\T\beta_k) \\
\therefore \ba&={1\over1+\beta_k}(\bxh+\bm_k\beta_k)
\end{align}
\]
を得る。この \(\ba\) と\(\bLambda\) を用いて
\[
\begin{align}
\color{red}{(1)} &= (\bmu_k-\ba)^\T\bLambda(\bmu_k-\ba)-\ba^\T\bLambda\ba+\bxh^\T\bLambda_k\bxh+\bm_k^\T\beta_k\bLambda_k\bm_k \\
&= (\bmu_k-\ba)^\T\bLambda(\bmu_k-\ba)-{1\over1+\beta_k}(\bxh^\T+\bm_k^\T\beta_k)\bLambda_k(\bxh+\bm_k\beta_k) +\bxh^\T\bLambda_k\bxh+\bm_k^\T\beta_k\bLambda_k\bm_k \\
&= (\bmu_k-\ba)^\T\bLambda(\bmu_k-\ba)
-{1\over1+\beta_k}\bxh^\T\bLambda_k\bxh
-{2\over1+\beta_k}\bm_k^\T\beta_k\bLambda_k\bxh
-{1\over1+\beta_k}\bm_k^\T\beta_k^2\bLambda_k\bm_k
+\bxh^\T\bLambda_k\bxh+\bm_k^\T\beta_k\bLambda_k\bm_k \\
&= (\bmu_k-\ba)^\T\bLambda(\bmu_k-\ba)
+{\beta_k\over1+\beta_k}\bxh^\T\bLambda_k\bxh
-{2\beta_k\over1+\beta_k}\bm_k^\T\beta_k\bLambda_k\bxh
+{\beta_k\over1+\beta_k}\bm_k^\T\bLambda_k\bm_k \\
&= (\bmu_k-\ba)^\T\bLambda(\bmu_k-\ba)
+{\beta_k\over1+\beta_k}\l(
\bxh^\T\bLambda_k\bxh
-2\bm_k^\T\bLambda_k\bxh
+\bm_k^\T\bLambda_k\bm_k \r)\\
&= (\bmu_k-\ba)^\T\bLambda(\bmu_k-\ba)
+(\bxh-\bm_k)^\T{\beta_k\over1+\beta_k}\bLambda_k(\bxh-\bm_k)
\end{align}
\]
となる。よって
\[
\begin{align}
&\N(\bxh|\bmu_k,\bLambda_k^{-1})\N(\bmu_k|\bm_k,(\beta_k\bLambda_k)^{-1}) \\
&~~~={1\over|2\pi|^{D/2}}{1\over\l|\bLambda_k^{-1}\r|^{1/2}}
{1\over|2\pi|^{D/2}}{1\over\l|(\beta_k\bLambda_k)^{-1}\r|^{1/2}}
\exp\l[-{1\over2}\l\{(\bmu_k-\ba)^\T\bLambda(\bmu_k-\ba)+(\bxh-\bm_k)^\T{\beta_k\over1+\beta_k}\bLambda_k(\bxh-\bm_k)\r\}\r] \\
&~~~={1\over|2\pi|^{D/2}}{1\over\l|\bLambda_k^{-1}\r|^{1/2}}
{1\over|2\pi|^{D/2}}{1\over\l|(\beta_k\bLambda_k)^{-1}\r|^{1/2}}
|2\pi|^{D/2}\l|\bLambda^{-1}\r|^{1/2}\N\l(\bmu_k|\ba,\bLambda^{-1}\r) \\
&~~~~~~~~~\cdot|2\pi|^{D/2}\l|\l({\beta_k\over1+\beta_k}\bLambda_k\r)^{-1}\r|^{1/2}\N\l(\bxh|\bm_k,\l({\beta_k\over1+\beta_k}\bLambda_k\r)^{-1}\r) \\
&~~~=\N\l(\bmu_k|\ba,\bLambda^{-1}\r)
\N\l(\bxh|\bm_k,\l({\beta_k\over1+\beta_k}\bLambda_k\r)^{-1}\r) ~~~\cmt{※1}
\end{align}
\]
よって
\[
\begin{align}
&\int \N(\bxh|\bmu_k,\bLambda_k^{-1})
\N(\bmu_k|\bm_k,(\beta_k\bLambda_k)^{-1})\,d\bmu_k \\
&~~~= \int \N\l(\bmu_k|\ba,\bLambda^{-1}\r)
\N\l(\bxh|\bm_k,\l({\beta_k\over1+\beta_k}\bLambda_k\r)^{-1}\r)\,d\bmu_k \\
&~~~=\N\l(\bxh|\bm_k,\l({\beta_k\over1+\beta_k}\bLambda_k\r)^{-1}\r) \\
&~~~=\N\l(\bxh|\bm_k,(1+\beta_k^{-1})\bLambda_k^{-1}\r)
\end{align}
\]
を得る。
\(
\begin{align}
\cmt{※1}~~~
&\l|\bLambda^{-1}\r|^{1/2}\l|\l({\beta_k\over1+\beta_k}\bLambda_k\r)^{-1}\r|^{1/2}
=\l|\{(1+\beta_k)\bLambda_k\}^{-1}\r|^{1/2} \l|\l({\beta_k\over1+\beta_k}\bLambda_k\r)^{-1}\r|^{1/2} \\
&~~~~~~=\l|{1\over1+\beta_k}\bLambda_k^{-1}{1+\beta_k\over\beta_k}\bLambda_k^{-1}\r|^{1/2}
=\l|\bLambda_k^{-1}\r|^{1/2}\l|(\beta_k\bLambda_k)^{-1}\r|^{1/2}
\end{align}
\)
(2.115)を用いる
\[
\begin{align}
p(\bmu_k)&=\N\l(\bmu_k|\bm_k,(\beta_k\bLambda_k)^{-1}\r)\ \cdots(2.113)に相当 \\
p(\bxh|\bmu_k)&=\N\l(\bxh|\bmu_k,\bLambda_k^{-1}\r)\ \cdots(2.114)に相当 \\
\end{align}
\]
とみて、(2.115)より
\[
\begin{align}
p(\bxh) &= \int p(\bxh|\bmu_k)p(\bmu_k)\,d\bmu_k \\
&= \N\l(\bxh|\bm_k,\bLambda_k^{-1}+\l(\beta_k\bLambda_k\r)^{-1}\r) \\
&= \N\l(\bxh|\bm_k,(1+\beta_k^{-1})\bLambda_k^{-1}\r) \\
\end{align}
\]
を得る。
畳み込み積分の結果を用いる
若干わかりにくいが上巻90頁で、(2.109),(2.110)は\(\bA=\bI\)のとき2つのガウス分布 \(\N\l(\bx|\bmu,\bLambda^{-1}\r),\ \N\l(\by|\bb,\bL^{-1}\r)\) の畳み込みの結果であると述べられている。整理すると
\[
\begin{align}
&\int \N(\by-\bx|\bb,\bL^{-1})\N(\bx|\bmu,\bLambda^{-1})\,d\bx ~~~\cmt{※2} \\
&~~~=\int \N\l(\by|\bx+\bb,\bL^{-1}\r)\N\l(\bx|\bmu,\bLambda^{-1}\r)\,d\bx ~~~\cmt{※3} \\
&~~~=\N(\by|\bmu+\bb,\bL^{-1}+\bLambda^{-1})~~~(\because\ (2,109),(2.110)で\bA=\bIのとき) \\
\end{align}
\]
ということである。これより \(\N\l(\bmu_k|\bm_k,(\beta_k\bLambda_k)^{-1}\r),\ \N\l(\bxh|\b{0},\bLambda_k^{-1}\r) \)の畳み込みを考えると
\[
\begin{align}
&\int \N\l(\bxh-\bmu_k|\b{0},\bLambda_k^{-1}\r) \N\l(\bmu_k|\bm_k,(\beta_k\bLambda_k)^{-1}\r)\,d\bmu_k ~~~(\because\ 畳み込みの定義より) \\
&~~~=\int \N\l(\bxh|\bmu_k,\bLambda_k^{-1}\r) \N\l(\bmu_k|\bm_k,(\beta_k\bLambda_k)^{-1}\r)\,d\bmu_k~~~\cmt{※3}\ (これが目的の積分である)\\
&~~~=\N\l(\bxh|\bm_k,\bLambda_k^{-1}+(\beta_k\bLambda_k)^{-1}\r)~~~(\because\ ガウス分布の畳み込みの結果より) \\
&~~~=\N\l(\bxh|\bm_k,\l(1+\beta_k^{-1}\r)\bLambda_k^{-1}\r) \\
\end{align}
\]
を得る。
\(
\begin{align}
\cmt{※2}~~~
&f(\bx), g(\by)の畳み込み積分の定義は、\int g(\by-\bx)f(\bx)\,d\bx である。
\end{align}
\)
\(
\begin{align}
\cmt{※3}~~~
&(\by-\bx)-\bb=\by-(\bx+\bb)なので、\N(\by-\bx|\bb,\bL^{-1})=\N(\by|\bx+\bb,\bL^{-1})である。
\end{align}
\)
ガウス分布の和の分布
積分を求めることとは関係ないが、ついでにガウス分布の和の分布を考えてみる。
\(\bx,\ \by\) が独立で、\(\bx\) の分布が \(f(\bx)\)、\(\by\) の分布が \(g(\by)\) のとき、和 \(\bz=\bx+\by\) の分布は畳み込みで与えられる。 \[ p(\bz) = \int g(\bz-\bx)f(\bx)\,d\bx \] \(g,\ f\) がガウス分布のとき \[ \begin{align} p(\bz) &= \int \N\l(\bz-\bx|\bb,\bL^{-1}\r) \N\l(\bx|\bmu,\bLambda^{-1}\r) \,d\bx \\ &= \int \N\l(\bz|\bx+\bb,\bL^{-1}\r) \N\l(\bx|\bmu,\bLambda^{-1}\r) \,d\bx \\ &= \N\l(\bz|\bmu+\bb,\bL^{-1}+\bLambda^{-1}\r) \\ \end{align} \] となる。和の分布も元の分布と同じガウス分布となる。これをガウス分布の再生性という。
\(\bx,\ \by\) が独立で、\(\bx\) の分布が \(f(\bx)\)、\(\by\) の分布が \(g(\by)\) のとき、和 \(\bz=\bx+\by\) の分布は畳み込みで与えられる。 \[ p(\bz) = \int g(\bz-\bx)f(\bx)\,d\bx \] \(g,\ f\) がガウス分布のとき \[ \begin{align} p(\bz) &= \int \N\l(\bz-\bx|\bb,\bL^{-1}\r) \N\l(\bx|\bmu,\bLambda^{-1}\r) \,d\bx \\ &= \int \N\l(\bz|\bx+\bb,\bL^{-1}\r) \N\l(\bx|\bmu,\bLambda^{-1}\r) \,d\bx \\ &= \N\l(\bz|\bmu+\bb,\bL^{-1}+\bLambda^{-1}\r) \\ \end{align} \] となる。和の分布も元の分布と同じガウス分布となる。これをガウス分布の再生性という。
演習10.19の積分について.txt · 最終更新: 2018/03/20 13:27 by ma
