prml演習13.34の解答
PRML演習13.34の解答
\[
\newcommand\l{\left}
\newcommand\r{\right}
\newcommand\cmt[1]{\class{Cmt}{\mbox{#1}}}
\newcommand\b[1]{\class{Bold}{\mathrm{#1}}}
\newcommand\bC{\b{C}}
\newcommand\bSigma{\b{\Sigma}}
\newcommand\btheta{\b{\theta}}
\newcommand\bZ{\b{Z}}
\newcommand\bX{\b{X}}
\newcommand\bz{\b{z}}
\newcommand\bx{\b{x}}
\newcommand\bA{\b{A}}
\newcommand\bB{\b{B}}
\newcommand\ba{\b{a}}
\newcommand\bb{\b{b}}
\newcommand\bJ{\b{J}}
\newcommand\E{\mathbb E}
\newcommand\pdiff[2]{\frac{\partial #1}{\partial #2}}
\newcommand\T{\mathrm T}
\newcommand\Tr{\mathrm {Tr}}
\newcommand\cause[1]{(\because #1)}
\]
本文362頁の\(Q\)関数
\[
\begin{align}
&Q(\btheta, \btheta^{old})
= -{N \over 2}\ln |\bSigma|
- \E_{p(\bZ\mid\bX,\btheta^{old})}
\l[{1 \over 2} \sum_{n=1}^N(\bx_n-\bC\bz_n)^\T\bSigma^{-1}(\bx_n-\bC\bz_n)\r]
+ const \\
&const は \bC,\ \bSigma を含まない項
\end{align}
\]
これより、\(\bC\) の最尤推定値は
\[
\begin{align}
\b{0}
&= \pdiff{Q}{\bC} \\
&= -\E\l[
{1 \over 2} \sum_{n=1}^N
\pdiff{}{\bC}(\bx_n-\bC\bz_n)^\T\bSigma^{-1}(\bx_n-\bC\bz_n) \r] ~~~ \cmt{※1} \\
&= -{1 \over 2}\sum_{n=1}^N \E\l[\pdiff{}{\bC}\l\{
\bx_n^\T\bSigma^{-1}\bx_n
\underset{\cmt{※2}}{- \bx_n^\T\bSigma^{-1}\bC\bz_n}
\underset{\cmt{※3}}{- (\bC\bz_n)^\T\bSigma^{-1}\bx_n}
\underset{\cmt{※4}}{+ (\bC\bz_n)^\T\bSigma^{-1}(\bC\bz_n)} \r\} \r] \\
&= -{1 \over 2}\sum_{n=1}^N \E\l[
-2\bSigma^{-1}\bx_n\bz_n^\T + 2\bSigma^{-1}\bC\bz_n\bz_n^\T \r] \\
&= \bSigma^{-1}\sum_{n=1}^N\l(\bx_n\E\l[\bz_n^\T\r] - \bC\E\l[\bz_n\bz_n^\T\r] \r)
\end{align}
\]
で与えられる。これより
\[
\begin{align}
\bC &= \l(\sum_{n=1}^N\bx_n\E\l[\bz_n^\T\r]\r)
\l(\sum_{n=1}^N\E\l[\bz_n\bz_n^\T\r]\r)^{-1} \tag{13.115}
\end{align}
\]
を得る。\(\bSigma\) の最尤推定値は
\[
\begin{align}
\b{0}
&= \pdiff{Q}{\bSigma} \\
&= -{N \over 2}\pdiff{}{\bSigma}\ln|\bSigma|
-\E\l[{1 \over 2}\sum_{n=1}^N\pdiff{}{\bSigma}(\bx_n-\bC\bz_n)^\T\bSigma^{-1}(\bx_n-\bC\bz_n)\r]~~~\cmt{※6} \\
&= -{N \over 2}\l(\bSigma^{-1}\r)^\T
-{1 \over 2}\sum_{n=1}^N\E\l[-\l(\bSigma^{-1}\r)^\T(\bx_n-\bC\bz_n)(\bx_n-\bC\bz_n)^\T\l(\bSigma^{-1}\r)^\T\r]~~~\cmt{※7} \\
&= -{N \over 2}\bSigma^{-1}
+{1 \over 2}\bSigma^{-1}\sum_{n=1}^N\E\l[(\bx_n-\bC\bz_n)(\bx_n-\bC\bz_n)^\T\r]\bSigma^{-1}~~~\cmt{※8} \\
\end{align}
\]
で与えられる。左右から \(\bSigma\) を掛けて
\[
\begin{align}
\bSigma
&= {1 \over N}\sum_{n=1}^N\E\l[(\bx_n-\bC\bz_n)(\bx_n-\bC\bz_n)^\T\r] \\
&= {1 \over N}\sum_{n=1}^N\E\l[\bx_n\bx_n^\T-\bx_n(\bC\bz_n)^\T-\bC\bz_n\bx_n^\T-\bC\bz_n(\bC\bz_n)^\T\r] \\
&= {1 \over N}\sum_{n=1}^N\l(\bx_n\bx_n^\T-\bx_n\E\l[\bz_n^\T\r]\bC^\T-\bC\E\l[\bz_n\r]\bx_n^\T-\bC\E\l[\bz_n\bz_n^\T\r]\bC^\T\r) \tag{13.116}
\end{align}
\]
を得る。
\(\cmt{※5}~~~公式\ \pdiff{\Tr(\bA\bX^\T\bB\bX\bC)}{\bX} = \bB^\T\bX\bA^\T\bC^\T+\bB\bX\bC\bA\) の 導出 \[ \begin{align} \pdiff{}{X_{ij}}\Tr\l(\bA\bX^\T\bB\bX\bC\r) &=\pdiff{}{X_{ij}}\Tr\l(\bC\bA\bX^\T\bB\bX\r)~~~\cause{(C.9)\Trの巡回} \\ &=\Tr\l(\pdiff{}{X_{ij}}\bC\bA\bX^\T\bB\bX\r)~~~\cause{スカラーの微分と\Trは入れ換えても同じ} \\ &=\Tr\l(\bC\bA\bX^\T\pdiff{\bB\bX}{X_{ij}}+\pdiff{\bC\bA\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{(C.20)積の微分}\\ &=\Tr\l(\bC\bA\bX^\T\pdiff{\bB\bX}{X_{ij}}\r)+\Tr\l(\pdiff{\bC\bA\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{和と\Trは交換可}\\ &=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\bC\bA\pdiff{\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{(C.20)積の微分} \\ &=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\pdiff{\bX^\T}{X_{ij}}\bB\bX\bC\bA\r)~~~\cause{(C.9)\Trの巡回} \\ &=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\l(\pdiff{\bX^\T}{X_{ij}}\bB\bX\bC\bA\r)^\T\r)~~~\cause{転置の\Trは元の\Trと同じ} \\ &=\Tr\l( \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T\r)\pdiff{\bX}{X_{ij}} \r)~~~\cause{和と\Trは交換可} \\ &=\Tr\l( \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T\r)\bJ^{ij} \r)~~~(\bJ^{ij}はシングルエントリ行列) \\ &=\l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T \r)_{ji}~~~\cmt{※9} \\ \therefore \pdiff{}{\bX}\Tr\l(\bA\bX^\T\bB\bX\bC\r) &= \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T \r)^\T~~~(分母レイアウト) \\ &= \bB^\T\bX\bA^\T\bC^\T+\bB\bX\bC\bA \end{align} \]
\(\cmt{※7}~~~公式\ \pdiff{\ba^\T\bX^{-1}\bb}{\bX}=-\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T \)の導出 \[ \begin{align} \pdiff{\ba^\T\bX^{-1}\bb}{X_{ij}} &= \ba^\T\pdiff{\bX^{-1}}{X_{ij}}\bb~~~\cause{(C.20)積の微分} \\ &= \ba^\T\l( -\bX^{-1}\pdiff{\bX}{X_{ij}}\bX^{-1}\r)\bb~~~\cause{(C.21)} \\ &= -\ba^\T\bX^{-1}\bJ^{ij}\bX^{-1}\bb~~~(\bJ^{ij}はシングルエントリ) \\ &= -\l\{\l(\ba^\T\bX^{-1}\r)^\T\l(\bX^{-1}\bb\r)^\T \r\}_{ij}~~~\cmt{※10} \\ &= -\l\{\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T \r\}_{ij} \\ \therefore \pdiff{\ba^\T\bX^{-1}\bb}{\bX} &= -\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T~(分母レイアウト) \end{align} \]
\(
\begin{align}
\cmt{※1}~~~&期待値が存在すると仮定する。すなわち積分が存在すると仮定する。 \\
&このとき微分と積分を交換して、微分を期待値の中に入れる。
\end{align}
\)
\(
\begin{align}
\cmt{※2}~~~&\pdiff{}{\bC}\bx_n^\T\bSigma^{-1}\bC\bz_n
= \pdiff{}{\bC}\Tr(\bx_n^\T\bSigma^{-1}\bC\bz_n)~~~\cause{スカラーなので\Trとっても同じ} \\
&~~~=\pdiff{}{\bC}\Tr(\bC\bz_n\bx_n^\T\bSigma^{-1})~~~\cause{(C.9)\Trの巡回} \\
&~~~=(\bz_n\bx_n^\T\bSigma^{-1})^\T ~~~\cause{(C.24)} \\
&~~~=\bSigma^{-1}\bx_n\bz_n^\T
\end{align}
\)
\(
\begin{align}
\cmt{※3}~~~
&\pdiff{}{\bC}(\bC\bz_n)^\T\bSigma^{-1}\bx_n
=\pdiff{}{\bC}\Tr((\bC\bz_n)^\T\bSigma^{-1}\bx_n)~~~\cause{スカラーの\Tr} \\
&~~~=\pdiff{}{\bC}\Tr(\bC^\T\bSigma^{-1}\bx_n\bz_n^\T)~~~\cause{(C.9)} \\
&~~~=\bSigma^{-1}\bx_n\bz_n^\T~~~\cause{(C.25)}
\end{align}
\)
\(
\begin{align}
\cmt{※4}~~~
&\pdiff{}{\bC}(\bC\bz_n)^\T\bSigma^{-1}(\bC\bz_n)
=\pdiff{}{\bC}\Tr((\bC\bz_n)^\T\bSigma^{-1}(\bC\bz_n))~~~\cause{スカラーの\Tr} \\
&~~~=\pdiff{}{\bC}\Tr(\bz_n^\T\bC^\T\bSigma^{-1}\bC\bz_n) \\
&~~~=(\bSigma^{-1})^\T\bC\bz_n\bz_n^\T+\bSigma^{-1}\bC\bz_n\bz_n^\T~~~\cmt{※5} \\
&~~~=2\bSigma^{-1}\bC\bz_n\bz_n^\T
\end{align}
\)
\(
\begin{align}
\cmt{※5}~~~公式
&\pdiff{\Tr(\bA\bX^\T\bB\bX\bC)}{\bX} = \bB^\T\bX\bA^\T\bC^\T+\bB\bX\bC\bA~(分母レイアウト)より
\end{align}
\)
\(
\begin{align}
\cmt{※6}~~~&期待値の存在を仮定し微分と積分入れ替えて、微分を期待値の中にいれる
\end{align}
\)
\(
\begin{align}
\cmt{※7}~~~&公式\ \pdiff{\ba^\T\bX^{-1}\bb}{\bX}=-\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T~(分母レイアウト)より
\end{align}
\)
\(
\begin{align}
\cmt{※8}~~~&\bSigma^{-1}は対称なので、\l(\bSigma^{-1}\r)^\T=\bSigma^{-1}
\end{align}
\)
\(\cmt{※5}~~~公式\ \pdiff{\Tr(\bA\bX^\T\bB\bX\bC)}{\bX} = \bB^\T\bX\bA^\T\bC^\T+\bB\bX\bC\bA\) の 導出 \[ \begin{align} \pdiff{}{X_{ij}}\Tr\l(\bA\bX^\T\bB\bX\bC\r) &=\pdiff{}{X_{ij}}\Tr\l(\bC\bA\bX^\T\bB\bX\r)~~~\cause{(C.9)\Trの巡回} \\ &=\Tr\l(\pdiff{}{X_{ij}}\bC\bA\bX^\T\bB\bX\r)~~~\cause{スカラーの微分と\Trは入れ換えても同じ} \\ &=\Tr\l(\bC\bA\bX^\T\pdiff{\bB\bX}{X_{ij}}+\pdiff{\bC\bA\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{(C.20)積の微分}\\ &=\Tr\l(\bC\bA\bX^\T\pdiff{\bB\bX}{X_{ij}}\r)+\Tr\l(\pdiff{\bC\bA\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{和と\Trは交換可}\\ &=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\bC\bA\pdiff{\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{(C.20)積の微分} \\ &=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\pdiff{\bX^\T}{X_{ij}}\bB\bX\bC\bA\r)~~~\cause{(C.9)\Trの巡回} \\ &=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\l(\pdiff{\bX^\T}{X_{ij}}\bB\bX\bC\bA\r)^\T\r)~~~\cause{転置の\Trは元の\Trと同じ} \\ &=\Tr\l( \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T\r)\pdiff{\bX}{X_{ij}} \r)~~~\cause{和と\Trは交換可} \\ &=\Tr\l( \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T\r)\bJ^{ij} \r)~~~(\bJ^{ij}はシングルエントリ行列) \\ &=\l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T \r)_{ji}~~~\cmt{※9} \\ \therefore \pdiff{}{\bX}\Tr\l(\bA\bX^\T\bB\bX\bC\r) &= \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T \r)^\T~~~(分母レイアウト) \\ &= \bB^\T\bX\bA^\T\bC^\T+\bB\bX\bC\bA \end{align} \]
\(
\begin{align}
\cmt{※9}~~~
&\Tr\l(\bA\bJ^{12}\r)=\Tr \l( \pmatrix{A_{11} & A_{12} \\ A_{21} & A_{22}} \pmatrix{0&1\\0&0} \r) \\
&= \Tr \pmatrix{0&A_{11}\\0&A_{21}} = A_{21}
\end{align}
\)
\(\cmt{※7}~~~公式\ \pdiff{\ba^\T\bX^{-1}\bb}{\bX}=-\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T \)の導出 \[ \begin{align} \pdiff{\ba^\T\bX^{-1}\bb}{X_{ij}} &= \ba^\T\pdiff{\bX^{-1}}{X_{ij}}\bb~~~\cause{(C.20)積の微分} \\ &= \ba^\T\l( -\bX^{-1}\pdiff{\bX}{X_{ij}}\bX^{-1}\r)\bb~~~\cause{(C.21)} \\ &= -\ba^\T\bX^{-1}\bJ^{ij}\bX^{-1}\bb~~~(\bJ^{ij}はシングルエントリ) \\ &= -\l\{\l(\ba^\T\bX^{-1}\r)^\T\l(\bX^{-1}\bb\r)^\T \r\}_{ij}~~~\cmt{※10} \\ &= -\l\{\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T \r\}_{ij} \\ \therefore \pdiff{\ba^\T\bX^{-1}\bb}{\bX} &= -\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T~(分母レイアウト) \end{align} \]
\(
\begin{align}
\cmt{※10}~~~
&\ba^\T\bJ^{12}\bb = \pmatrix{a_1&a_2}\pmatrix{0&1\\0&0}\pmatrix{b_1\\b_2} \\
&= a_1 b_2 = (\ba\bb^\T)_{12}~~~\cmt{※11}
\end{align}
\)
\(
\begin{align}
\cmt{※11}~~~
&\ba\bb^\T = \pmatrix{a_1\\a_2}\pmatrix{b_1&b_2} = \pmatrix{a_1 b_1 & a_1 b_2 \\ a_2 b_1 & a_2 b_2}
\end{align}
\)
prml演習13.34の解答.txt · 最終更新: 2018/02/01 21:47 by ma
