ユーザ用ツール

サイト用ツール


prml演習13.34の解答

PRML演習13.34の解答

\[ \newcommand\l{\left} \newcommand\r{\right} \newcommand\cmt[1]{\class{Cmt}{\mbox{#1}}} \newcommand\b[1]{\class{Bold}{\mathrm{#1}}} \newcommand\bC{\b{C}} \newcommand\bSigma{\b{\Sigma}} \newcommand\btheta{\b{\theta}} \newcommand\bZ{\b{Z}} \newcommand\bX{\b{X}} \newcommand\bz{\b{z}} \newcommand\bx{\b{x}} \newcommand\bA{\b{A}} \newcommand\bB{\b{B}} \newcommand\ba{\b{a}} \newcommand\bb{\b{b}} \newcommand\bJ{\b{J}} \newcommand\E{\mathbb E} \newcommand\pdiff[2]{\frac{\partial #1}{\partial #2}} \newcommand\T{\mathrm T} \newcommand\Tr{\mathrm {Tr}} \newcommand\cause[1]{(\because #1)} \]


本文362頁の\(Q\)関数 \[ \begin{align} &Q(\btheta, \btheta^{old}) = -{N \over 2}\ln |\bSigma| - \E_{p(\bZ\mid\bX,\btheta^{old})} \l[{1 \over 2} \sum_{n=1}^N(\bx_n-\bC\bz_n)^\T\bSigma^{-1}(\bx_n-\bC\bz_n)\r] + const \\ &const は \bC,\ \bSigma を含まない項 \end{align} \] これより、\(\bC\) の最尤推定値は \[ \begin{align} \b{0} &= \pdiff{Q}{\bC} \\ &= -\E\l[ {1 \over 2} \sum_{n=1}^N \pdiff{}{\bC}(\bx_n-\bC\bz_n)^\T\bSigma^{-1}(\bx_n-\bC\bz_n) \r] ~~~ \cmt{※1} \\ &= -{1 \over 2}\sum_{n=1}^N \E\l[\pdiff{}{\bC}\l\{ \bx_n^\T\bSigma^{-1}\bx_n \underset{\cmt{※2}}{- \bx_n^\T\bSigma^{-1}\bC\bz_n} \underset{\cmt{※3}}{- (\bC\bz_n)^\T\bSigma^{-1}\bx_n} \underset{\cmt{※4}}{+ (\bC\bz_n)^\T\bSigma^{-1}(\bC\bz_n)} \r\} \r] \\ &= -{1 \over 2}\sum_{n=1}^N \E\l[ -2\bSigma^{-1}\bx_n\bz_n^\T + 2\bSigma^{-1}\bC\bz_n\bz_n^\T \r] \\ &= \bSigma^{-1}\sum_{n=1}^N\l(\bx_n\E\l[\bz_n^\T\r] - \bC\E\l[\bz_n\bz_n^\T\r] \r) \end{align} \]
\( \begin{align} \cmt{※1}~~~&期待値が存在すると仮定する。すなわち積分が存在すると仮定する。 \\ &このとき微分と積分を交換して、微分を期待値の中に入れる。 \end{align} \)
\( \begin{align} \cmt{※2}~~~&\pdiff{}{\bC}\bx_n^\T\bSigma^{-1}\bC\bz_n = \pdiff{}{\bC}\Tr(\bx_n^\T\bSigma^{-1}\bC\bz_n)~~~\cause{スカラーなので\Trとっても同じ} \\ &~~~=\pdiff{}{\bC}\Tr(\bC\bz_n\bx_n^\T\bSigma^{-1})~~~\cause{(C.9)\Trの巡回} \\ &~~~=(\bz_n\bx_n^\T\bSigma^{-1})^\T ~~~\cause{(C.24)} \\ &~~~=\bSigma^{-1}\bx_n\bz_n^\T \end{align} \)
\( \begin{align} \cmt{※3}~~~ &\pdiff{}{\bC}(\bC\bz_n)^\T\bSigma^{-1}\bx_n =\pdiff{}{\bC}\Tr((\bC\bz_n)^\T\bSigma^{-1}\bx_n)~~~\cause{スカラーの\Tr} \\ &~~~=\pdiff{}{\bC}\Tr(\bC^\T\bSigma^{-1}\bx_n\bz_n^\T)~~~\cause{(C.9)} \\ &~~~=\bSigma^{-1}\bx_n\bz_n^\T~~~\cause{(C.25)} \end{align} \)
\( \begin{align} \cmt{※4}~~~ &\pdiff{}{\bC}(\bC\bz_n)^\T\bSigma^{-1}(\bC\bz_n) =\pdiff{}{\bC}\Tr((\bC\bz_n)^\T\bSigma^{-1}(\bC\bz_n))~~~\cause{スカラーの\Tr} \\ &~~~=\pdiff{}{\bC}\Tr(\bz_n^\T\bC^\T\bSigma^{-1}\bC\bz_n) \\ &~~~=(\bSigma^{-1})^\T\bC\bz_n\bz_n^\T+\bSigma^{-1}\bC\bz_n\bz_n^\T~~~\cmt{※5} \\ &~~~=2\bSigma^{-1}\bC\bz_n\bz_n^\T \end{align} \)
\( \begin{align} \cmt{※5}~~~公式 &\pdiff{\Tr(\bA\bX^\T\bB\bX\bC)}{\bX} = \bB^\T\bX\bA^\T\bC^\T+\bB\bX\bC\bA~(分母レイアウト)より \end{align} \)
で与えられる。これより \[ \begin{align} \bC &= \l(\sum_{n=1}^N\bx_n\E\l[\bz_n^\T\r]\r) \l(\sum_{n=1}^N\E\l[\bz_n\bz_n^\T\r]\r)^{-1} \tag{13.115} \end{align} \] を得る。\(\bSigma\) の最尤推定値は \[ \begin{align} \b{0} &= \pdiff{Q}{\bSigma} \\ &= -{N \over 2}\pdiff{}{\bSigma}\ln|\bSigma| -\E\l[{1 \over 2}\sum_{n=1}^N\pdiff{}{\bSigma}(\bx_n-\bC\bz_n)^\T\bSigma^{-1}(\bx_n-\bC\bz_n)\r]~~~\cmt{※6} \\ &= -{N \over 2}\l(\bSigma^{-1}\r)^\T -{1 \over 2}\sum_{n=1}^N\E\l[-\l(\bSigma^{-1}\r)^\T(\bx_n-\bC\bz_n)(\bx_n-\bC\bz_n)^\T\l(\bSigma^{-1}\r)^\T\r]~~~\cmt{※7} \\ &= -{N \over 2}\bSigma^{-1} +{1 \over 2}\bSigma^{-1}\sum_{n=1}^N\E\l[(\bx_n-\bC\bz_n)(\bx_n-\bC\bz_n)^\T\r]\bSigma^{-1}~~~\cmt{※8} \\ \end{align} \]
\( \begin{align} \cmt{※6}~~~&期待値の存在を仮定し微分と積分入れ替えて、微分を期待値の中にいれる \end{align} \)
\( \begin{align} \cmt{※7}~~~&公式\ \pdiff{\ba^\T\bX^{-1}\bb}{\bX}=-\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T~(分母レイアウト)より \end{align} \)
\( \begin{align} \cmt{※8}~~~&\bSigma^{-1}は対称なので、\l(\bSigma^{-1}\r)^\T=\bSigma^{-1} \end{align} \)
で与えられる。左右から \(\bSigma\) を掛けて \[ \begin{align} \bSigma &= {1 \over N}\sum_{n=1}^N\E\l[(\bx_n-\bC\bz_n)(\bx_n-\bC\bz_n)^\T\r] \\ &= {1 \over N}\sum_{n=1}^N\E\l[\bx_n\bx_n^\T-\bx_n(\bC\bz_n)^\T-\bC\bz_n\bx_n^\T-\bC\bz_n(\bC\bz_n)^\T\r] \\ &= {1 \over N}\sum_{n=1}^N\l(\bx_n\bx_n^\T-\bx_n\E\l[\bz_n^\T\r]\bC^\T-\bC\E\l[\bz_n\r]\bx_n^\T-\bC\E\l[\bz_n\bz_n^\T\r]\bC^\T\r) \tag{13.116} \end{align} \] を得る。


\(\cmt{※5}~~~公式\ \pdiff{\Tr(\bA\bX^\T\bB\bX\bC)}{\bX} = \bB^\T\bX\bA^\T\bC^\T+\bB\bX\bC\bA\) の 導出 \[ \begin{align} \pdiff{}{X_{ij}}\Tr\l(\bA\bX^\T\bB\bX\bC\r) &=\pdiff{}{X_{ij}}\Tr\l(\bC\bA\bX^\T\bB\bX\r)~~~\cause{(C.9)\Trの巡回} \\ &=\Tr\l(\pdiff{}{X_{ij}}\bC\bA\bX^\T\bB\bX\r)~~~\cause{スカラーの微分と\Trは入れ換えても同じ} \\ &=\Tr\l(\bC\bA\bX^\T\pdiff{\bB\bX}{X_{ij}}+\pdiff{\bC\bA\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{(C.20)積の微分}\\ &=\Tr\l(\bC\bA\bX^\T\pdiff{\bB\bX}{X_{ij}}\r)+\Tr\l(\pdiff{\bC\bA\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{和と\Trは交換可}\\ &=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\bC\bA\pdiff{\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{(C.20)積の微分} \\ &=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\pdiff{\bX^\T}{X_{ij}}\bB\bX\bC\bA\r)~~~\cause{(C.9)\Trの巡回} \\ &=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\l(\pdiff{\bX^\T}{X_{ij}}\bB\bX\bC\bA\r)^\T\r)~~~\cause{転置の\Trは元の\Trと同じ} \\ &=\Tr\l( \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T\r)\pdiff{\bX}{X_{ij}} \r)~~~\cause{和と\Trは交換可} \\ &=\Tr\l( \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T\r)\bJ^{ij} \r)~~~(\bJ^{ij}はシングルエントリ行列) \\ &=\l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T \r)_{ji}~~~\cmt{※9} \\ \therefore \pdiff{}{\bX}\Tr\l(\bA\bX^\T\bB\bX\bC\r) &= \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T \r)^\T~~~(分母レイアウト) \\ &= \bB^\T\bX\bA^\T\bC^\T+\bB\bX\bC\bA \end{align} \]
\( \begin{align} \cmt{※9}~~~ &\Tr\l(\bA\bJ^{12}\r)=\Tr \l( \pmatrix{A_{11} & A_{12} \\ A_{21} & A_{22}} \pmatrix{0&1\\0&0} \r) \\ &= \Tr \pmatrix{0&A_{11}\\0&A_{21}} = A_{21} \end{align} \)

\(\cmt{※7}~~~公式\ \pdiff{\ba^\T\bX^{-1}\bb}{\bX}=-\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T \)の導出 \[ \begin{align} \pdiff{\ba^\T\bX^{-1}\bb}{X_{ij}} &= \ba^\T\pdiff{\bX^{-1}}{X_{ij}}\bb~~~\cause{(C.20)積の微分} \\ &= \ba^\T\l( -\bX^{-1}\pdiff{\bX}{X_{ij}}\bX^{-1}\r)\bb~~~\cause{(C.21)} \\ &= -\ba^\T\bX^{-1}\bJ^{ij}\bX^{-1}\bb~~~(\bJ^{ij}はシングルエントリ) \\ &= -\l\{\l(\ba^\T\bX^{-1}\r)^\T\l(\bX^{-1}\bb\r)^\T \r\}_{ij}~~~\cmt{※10} \\ &= -\l\{\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T \r\}_{ij} \\ \therefore \pdiff{\ba^\T\bX^{-1}\bb}{\bX} &= -\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T~(分母レイアウト) \end{align} \]
\( \begin{align} \cmt{※10}~~~ &\ba^\T\bJ^{12}\bb = \pmatrix{a_1&a_2}\pmatrix{0&1\\0&0}\pmatrix{b_1\\b_2} \\ &= a_1 b_2 = (\ba\bb^\T)_{12}~~~\cmt{※11} \end{align} \)
\( \begin{align} \cmt{※11}~~~ &\ba\bb^\T = \pmatrix{a_1\\a_2}\pmatrix{b_1&b_2} = \pmatrix{a_1 b_1 & a_1 b_2 \\ a_2 b_1 & a_2 b_2} \end{align} \)

prml演習13.34の解答.txt · 最終更新: 2018/02/01 21:47 by ma

ページ用ツール