PRML演習10.35の解答

\[ \newcommand\l{\left} \newcommand\r{\right} \newcommand\cmt[1]{\class{Cmt}{\mbox{#1}}} \newcommand\cause[1]{\class{Tiny}{(\because #1)}} \newcommand\b[1]{\class{Bold}{\mathrm{#1}}} \newcommand\bt{\b{t}} \newcommand\bw{\b{w}} \newcommand\bxi{\b{\xi}} \newcommand\bphi{\b{\phi}} \newcommand\bm{\b{m}} \newcommand\bS{\b{S}} \newcommand\pdiff[2]{\frac{\partial #1}{\partial #2}} \]

(10.159) より \[ {\cal L}(\bxi) = \ln \int h(\bw,\bxi)p(\bw)\,d\bw \] 10.6.1節のはじめに載っているとおり \(p(\bw)\) は \(h(\bw,\bxi)~(10.153)\) の共役事前分布 \( {\cal N}(\bw \mid \bm_0, \bS_0)~(4.140) \) とし、また \(h(\bw,\bxi)~(10.153)\) を用いて \[ \small \begin{align} & h(\bw,\bxi)p(\bw) = \l[ \prod_{n=1}^N \sigma(\xi_n)\exp\{\bw^T\bphi_n t_n - (\bw^T\bphi_n+\xi_n)/2 -\lambda(\xi_n)([\bw^T\bphi_n]^2-\xi_n^2) \} \r] {\cal N}(\bw \mid \bm_0, \bS_0) \\ &~~~= \l[ \prod_{n=1}^N \sigma(\xi_n)\exp\{\bw^T\bphi_n t_n - (\bw^T\bphi_n+\xi_n)/2 -\lambda(\xi_n)([\bw^T\bphi_n]^2-\xi_n^2) \} \r] \frac{1}{(2\pi)^{D/2}} \frac{1}{|\bS_0|^{1/2}} \exp\{-\frac{1}{2}(\bw-\bm_0)^T\bS_0^{-1}(\bw-\bm_0) \} \\ &~~~= \l(\prod_{n=1}^N \sigma(\xi_n)\r) \frac{1}{(2\pi)^{D/2}} \frac{1}{|\bS_0|^{1/2}} \exp \underbrace{ \l[ \sum_{n=1}^N \l\{\bw^T\bphi_n t_n - (\bw^T\bphi_n+\xi_n)/2 -\lambda(\xi_n)([\bw^T\bphi_n]^2-\xi_n^2) \r\} - \frac{1}{2} (\bw-\bm_0)^T\bS_0^{-1}(\bw-\bm_0) \r] }_{(1)} \\ \end{align} \] 指数の中を整理する \[ \begin{align} &(1) = -\frac{1}{2}\bw^T(2\sum_{n=1}^N\lambda(\xi_n)\bphi_n\bphi_n^T+\bS_0^{-1})\bw +\bw^T\{\sum_{n=1}^N(\bphi_n t_n - \frac{\bphi_n}{2})+\bS_0^{-1}\bm_0\} + C \\ & C = \sum_{n=1}^N(-\frac{\xi_n}{2}+\lambda(\xi_n)\xi_n^2)-\frac{1}{2}\bm_0^T\bS_0^{-1}\bm_0 \end{align} \] これを平方完成する。 \(-\frac{1}{2}(\bw-\bm_N)^T\bS_N^{-1}(\bw-\bm_N) = -\frac{1}{2}\bw^T\bS_N^{-1}\bw+\bw^T\bS_N^{-1}\bm_N-\frac{1}{2}\bm_N^T\bS_N^{-1}\bm_N \) と見比べて \[ \begin{align} \bS_N^{-1} &= 2\sum_{n=1}^N\lambda(\xi_n)\bphi_n\bphi_n^T + \bS_0^{-1} \\ \bm_N &= \bS_N\{\sum_{n=1}^N(\bphi_n t_n - \frac{\bphi_n}{2}) + \bS_0^{-1}\bm_0 \} \end{align} \] を得る。これより \[ (1) = -\frac{1}{2}(\bw - \bm_N)^T\bS_N^{-1}(\bw - \bm_N) + \frac{1}{2}\bm_N^T\bS_N^{-1}\bm_N + C \] となる。よって \[ \small \begin{align} h(\bw,\bxi)p(\bw) &= \l(\prod_{n=1}^N \sigma(\xi_n)\r) \frac{1}{(2\pi)^{D/2}} \frac{1}{|\bS_0|^{1/2}} \exp \l(\frac{1}{2}\bm_N^T\bS_N^{-1}\bm_N+C \r) \exp \l\{\frac{1}{2}(\bw-\bm_N)^T\bS_N^{-1}(\bw-\bm_N) \r\} \\ &= \l(\prod_{n=1}^N \sigma(\xi_n)\r) \frac{1}{(2\pi)^{D/2}} \frac{1}{|\bS_0|^{1/2}} \exp \l(\frac{1}{2}\bm_N^T\bS_N^{-1}\bm_N+C \r) (2\pi)^{D/2} |\bS_N|^{1/2} {\cal N}(\bw \mid \bm_N, \bS_N) \\ &= \l(\prod_{n=1}^N \sigma(\xi_n)\r) \l(\frac{|\bS_N|}{|\bS_0|}\r)^{\frac{1}{2}} \exp \l(\frac{1}{2}\bm_N^T\bS_N^{-1}\bm_N+C \r) {\cal N}(\bw \mid \bm_N, \bS_N) \end{align} \] となる。よって \[ \int h(\bw,\bxi)p(\bw) \,d\bw = \l(\prod_{n=1}^N \sigma(\xi_n)\r) \l(\frac{|\bS_N|}{|\bS_0|}\r)^{\frac{1}{2}} \exp \l(\frac{1}{2}\bm_N^T\bS_N^{-1}\bm_N+C \r) \] となる。よって \[ \begin{align} {\cal L}(\bxi) &= \ln \int h(\bw,\bxi)p(\bw)\,d\bw \\ &= \ln \l\{ \l(\prod_{n=1}^N \sigma(\xi_n)\r) \l(\frac{|\bS_N|}{|\bS_0|}\r)^{\frac{1}{2}} \exp \l(\frac{1}{2}\bm_N^T\bS_N^{-1}\bm_N+C \r) \r\} \\ &= \sum_{n=1}^N \ln \sigma(\xi_n) + \frac{1}{2}\ln\frac{|\bS_N|}{|\bS_0|} + \frac{1}{2}\bm_N^T\bS_N^{-1}\bm_N + C \\ &= \sum_{n=1}^N \ln \sigma(\xi_n) + \frac{1}{2}\ln\frac{|\bS_N|}{|\bS_0|} + \frac{1}{2}\bm_N^T\bS_N^{-1}\bm_N + \sum_{n=1}^N\l(-\frac{\xi_n}{2} + \lambda(\xi_n)\xi_n^2 \r) - \frac{1}{2} \bm_0^T\bS_0^{-1}\bm_0 \\ &= \frac{1}{2}\ln\frac{|\bS_N|}{|\bS_0|} + \frac{1}{2}\bm_N^T\bS_N^{-1}\bm_N - \frac{1}{2} \bm_0^T\bS_0^{-1}\bm_0 + \sum_{n=1}^N \l\{\ln\sigma(\xi_n)-\frac{\xi_n}{2}+\lambda(\xi_n)\xi_n^2\r\} \tag{10.164} \end{align} \] を得る。