ユーザ用ツール

サイト用ツール


prml演習11.5の解答

PRML演習11.5の解答

\[ \newcommand\l{\left} \newcommand\r{\right} \newcommand\cmt[1]{\class{Cmt}{\mbox{#1}}} \newcommand\b[1]{\class{Bold}{\mathrm{#1}}} \newcommand\by{\b{y}} \newcommand\bmu{\b{\mu}} \newcommand\bL{\b{L}} \newcommand\bz{\b{z}} \newcommand\bSigma{\b{\Sigma}} \newcommand\bzero{\b{0}} \newcommand\bI{\b{I}} \newcommand\bA{\b{A}} \newcommand\N{{\cal N}} \newcommand\Tr{\operatorname{Tr}} \newcommand\det{\operatorname{det}} \newcommand\T{\mathrm T} \newcommand\pdiff[2]{\frac{\partial #1}{\partial #2}} \]


\[ \by = \bmu + \bL\bz \] より \[ \begin{align} \bz &= \bL^{-1}(\by-\bmu)~~~(\because 仮定より\ \bL^{-1}\ は存在するので。\cmt{※3})\\ \therefore \pdiff{\bz}{\by} &= \l(\bL^{-1}\r)^\T~~~\cmt{※1} \end{align} \]
\( \begin{align} \cmt{※1} &~~~\pmatrix{z_1 \\ z_2} = \pmatrix{L_{11}^{-1} & L_{12}^{-1} \\ L_{21}^{-1} & L_{22}^{-1}} \pmatrix{y_1-\mu_1 \\ y_2-\mu_2} = \pmatrix{L_{11}^{-1}(y_1-\mu_1) + L_{12}^{-1}(y_2-\mu_2) \\ L_{21}^{-1}(y_1-\mu_1) + L_{22}^{-1}(y_2-\mu_2)} \\ &~~~\therefore \pdiff{\bz}{\by} = \pmatrix{\pdiff{z_1}{y_1} & \pdiff{z_2}{y_1} \\ \pdiff{z_1}{y_2} & \pdiff{z_2}{y_2}} =\pmatrix{L_{11}^{-1} & L_{21}^{-1} \\ L_{12}^{-1} & L_{22}^{-1}} = \l(\bL^{-1}\r)^\T~~~(分母レイアウト) \end{align} \)
となる。これより \(\by\) の確率密度分布は \[ \begin{align} p(\by)&=p(\bz)\l|\det\l(\pdiff{\bz}{\by}\r)\r| ~~~(\because\ (11.9)\cmt{※2}) \\ &=p(\bz)\l|\l|\bL^{-1}\r|\r| ~~~(\because\ \l|\bA^\T\r|=\l|\bA\r|) \\ &=p(\bz)\l|{1\over\l|\bL\r|}\r|~~~(\because\ (C.13)) \\ &=p(\bz){1\over\l|\bSigma\r|^{1\over2}}~~~\cmt{※3} \end{align} \]
\( \begin{align} \cmt{※2} &~~~教科書で(11.9)は\\ &~~~\color{red}{×}\ p(y_1,\ldots,y_M)=p(z_1,\ldots,z_M)\l|\pdiff{(z_1,\ldots,z_M)}{(y_1,\ldots,y_M)}\r| \\ &~~~となっているが、これは不正確である。\\ &~~~右辺はヤコビ行列式の\color{blue}{絶対値}でないといけない。 \\ &~~~\color{blue}{◯}\ p(y_1,\ldots,y_M)=p(z_1,\ldots,z_M)\l|\det\l(\pdiff{(z_1,\ldots,z_M)}{(y_1,\ldots,y_M)}\r)\r| \\ \end{align} \)
\( \begin{align} \cmt{※3} &~~~問題文の仮定より\ \bSigma = \bL\bL^\T\ である。\\ &~~~ただし\ \bL\ は下三角行列である。 \\ &~~~これより\ |\bSigma| = |\bL\bL^\T| = |\bL|\l|\bL^\T\r|\ (\because\ (C.12)) \\ &~~~ここで、|\bL| = \l|\bL^\T\r|\ なので\\ &~~~|\bSigma|=|\bL|\l|\bL^\T\r|=\l|\bL\r|^2 \\ &~~~\therefore |\bSigma|^{1\over2}=|\bL| \\ &~~~となる。\\ &~~~また、\bSigma\ は正定値と仮定しているので\ |\bSigma|\gt0\ である。\\ &~~~よって\ |\bL|\gt0\ であり、\bL^{-1}\ は存在する。\\ \end{align} \)
となる。問題文の仮定より\(\ p(\bz)=\N(\bz|\bzero,\bI)\ \)なので \[ \begin{align} p(\bz)&=\N(\bz|\bzero,\bI) \\ &={1\over(2\pi)^{D/2}}{1\over|\bI|^{1/2}}\exp\l({1\over2}(\bz-\bzero)^\T\bI^{-1}(\bz-\bzero)\r) \\ &={1\over(2\pi)^{D/2}}\exp\l({1\over2}\bz^\T\bz\r) \\ &={1\over(2\pi)^{D/2}}\exp\l\{{1\over2}\l(z_1^2+\cdots+z_D^2\r)\r\} \\ &=\N(z_1|0,1)\cdots\N(z_N|0,1) \end{align} \] よって \[ \begin{align} p(\by)&={1\over(2\pi)^{D/2}}\exp\l\{{1\over2}\l(z_1^2+\cdots+z_D^2\r)\r\}{1\over|\bSigma|^{1\over2}} \\ &={1\over(2\pi)^{D/2}}\exp\l\{{1\over2}(\by-\bmu)^\T\bSigma^{-1}(\by-\bmu)\r\}{1\over|\bSigma|^{1\over2}}~~~\cmt{※4} \\ &=\N(\by|\bmu,\bSigma) \\ \end{align} \]
\( \begin{align} \cmt{※4} &~~~(\by-\bmu)^\T\bSigma^{-1}(\by-\bmu) \\ &~~~=(\bL\bz)^\T\l(\bL\bL^\T\r)^{-1}(\bL\bz)~~~(\because\ \bSigma=\bL\bL^\T,\ \by=\bmu+\bL\bz) \\ &~~~=\bz^\T\bL^\T\l(\bL^\T\r)^{-1}\bL^{-1}\bL\bz~~~(\because\ (C.3))\\ &~~~=\bz^\T\bz \\ &~~~=z_1^2+\cdots+z_D^2 \end{align} \)
となる。\(\ \by\ \)の確率分布は平均\(\ \bmu\ \)、共分散\(\ \bSigma\ \)のガウス分布となっている。

これをふまえて、\(\ p(\by)=\N(\by|\bmu,\bSigma)\ \)からサンプルを生成する手順は以下のようになる。 \[ \begin{align} &(1)~~~\bSigma\ をコレスキー分解する。\bSigma = \bL\bL^{-1} \\ &(2)~~~p(\bz)=\N(z_1|0,1)\cdots\N(z_D|0,1)\ から\ \bz=(z_1,\ldots,z_D)\ をサンプリングする。\\ &(3)~~~\bz\ のサンプルを用いて\ \by\ のサンプルを\ \by = \bmu + \bL\bz\ として求める。\\ &(4)~~~この手順で得られた\ \by \ のサンプルは\ \N(\by|\bmu,\bSigma)\ に従っている。(証明は上記のとおり)\\ \end{align} \]

prml演習11.5の解答.txt · 最終更新: 2018/05/09 21:05 by ma

ページ用ツール