\[
\newcommand\l{\left}
\newcommand\r{\right}
\newcommand\cmt[1]{\class{Cmt}{\mbox{#1}}}
\newcommand\b[1]{\class{Bold}{\mathrm{#1}}}
\newcommand\bC{\b{C}}
\newcommand\bSigma{\b{\Sigma}}
\newcommand\btheta{\b{\theta}}
\newcommand\bZ{\b{Z}}
\newcommand\bX{\b{X}}
\newcommand\bz{\b{z}}
\newcommand\bx{\b{x}}
\newcommand\bA{\b{A}}
\newcommand\bB{\b{B}}
\newcommand\ba{\b{a}}
\newcommand\bb{\b{b}}
\newcommand\bJ{\b{J}}
\newcommand\E{\mathbb E}
\newcommand\pdiff[2]{\frac{\partial #1}{\partial #2}}
\newcommand\T{\mathrm T}
\newcommand\Tr{\mathrm {Tr}}
\newcommand\cause[1]{(\because #1)}
\]
本文362頁の\(Q\)関数
\[
\begin{align}
&Q(\btheta, \btheta^{old})
= -{N \over 2}\ln |\bSigma|
- \E_{p(\bZ\mid\bX,\btheta^{old})}
\l[{1 \over 2} \sum_{n=1}^N(\bx_n-\bC\bz_n)^\T\bSigma^{-1}(\bx_n-\bC\bz_n)\r]
+ const \\
&const は \bC,\ \bSigma を含まない項
\end{align}
\]
これより、\(\bC\) の最尤推定値は
\[
\begin{align}
\b{0}
&= \pdiff{Q}{\bC} \\
&= -\E\l[
{1 \over 2} \sum_{n=1}^N
\pdiff{}{\bC}(\bx_n-\bC\bz_n)^\T\bSigma^{-1}(\bx_n-\bC\bz_n) \r] ~~~ \cmt{※1} \\
&= -{1 \over 2}\sum_{n=1}^N \E\l[\pdiff{}{\bC}\l\{
\bx_n^\T\bSigma^{-1}\bx_n
\underset{\cmt{※2}}{- \bx_n^\T\bSigma^{-1}\bC\bz_n}
\underset{\cmt{※3}}{- (\bC\bz_n)^\T\bSigma^{-1}\bx_n}
\underset{\cmt{※4}}{+ (\bC\bz_n)^\T\bSigma^{-1}(\bC\bz_n)} \r\} \r] \\
&= -{1 \over 2}\sum_{n=1}^N \E\l[
-2\bSigma^{-1}\bx_n\bz_n^\T + 2\bSigma^{-1}\bC\bz_n\bz_n^\T \r] \\
&= \bSigma^{-1}\sum_{n=1}^N\l(\bx_n\E\l[\bz_n^\T\r] - \bC\E\l[\bz_n\bz_n^\T\r] \r)
\end{align}
\]
で与えられる。これより
\[
\begin{align}
\bC &= \l(\sum_{n=1}^N\bx_n\E\l[\bz_n^\T\r]\r)
\l(\sum_{n=1}^N\E\l[\bz_n\bz_n^\T\r]\r)^{-1} \tag{13.115}
\end{align}
\]
を得る。\(\bSigma\) の最尤推定値は
\[
\begin{align}
\b{0}
&= \pdiff{Q}{\bSigma} \\
&= -{N \over 2}\pdiff{}{\bSigma}\ln|\bSigma|
-\E\l[{1 \over 2}\sum_{n=1}^N\pdiff{}{\bSigma}(\bx_n-\bC\bz_n)^\T\bSigma^{-1}(\bx_n-\bC\bz_n)\r]~~~\cmt{※6} \\
&= -{N \over 2}\l(\bSigma^{-1}\r)^\T
-{1 \over 2}\sum_{n=1}^N\E\l[-\l(\bSigma^{-1}\r)^\T(\bx_n-\bC\bz_n)(\bx_n-\bC\bz_n)^\T\l(\bSigma^{-1}\r)^\T\r]~~~\cmt{※7} \\
&= -{N \over 2}\bSigma^{-1}
+{1 \over 2}\bSigma^{-1}\sum_{n=1}^N\E\l[(\bx_n-\bC\bz_n)(\bx_n-\bC\bz_n)^\T\r]\bSigma^{-1}~~~\cmt{※8} \\
\end{align}
\]
で与えられる。左右から \(\bSigma\) を掛けて
\[
\begin{align}
\bSigma
&= {1 \over N}\sum_{n=1}^N\E\l[(\bx_n-\bC\bz_n)(\bx_n-\bC\bz_n)^\T\r] \\
&= {1 \over N}\sum_{n=1}^N\E\l[\bx_n\bx_n^\T-\bx_n(\bC\bz_n)^\T-\bC\bz_n\bx_n^\T-\bC\bz_n(\bC\bz_n)^\T\r] \\
&= {1 \over N}\sum_{n=1}^N\l(\bx_n\bx_n^\T-\bx_n\E\l[\bz_n^\T\r]\bC^\T-\bC\E\l[\bz_n\r]\bx_n^\T-\bC\E\l[\bz_n\bz_n^\T\r]\bC^\T\r) \tag{13.116}
\end{align}
\]
を得る。
\(\cmt{※5}~~~公式\ \pdiff{\Tr(\bA\bX^\T\bB\bX\bC)}{\bX} = \bB^\T\bX\bA^\T\bC^\T+\bB\bX\bC\bA\) の
導出
\[
\begin{align}
\pdiff{}{X_{ij}}\Tr\l(\bA\bX^\T\bB\bX\bC\r)
&=\pdiff{}{X_{ij}}\Tr\l(\bC\bA\bX^\T\bB\bX\r)~~~\cause{(C.9)\Trの巡回} \\
&=\Tr\l(\pdiff{}{X_{ij}}\bC\bA\bX^\T\bB\bX\r)~~~\cause{スカラーの微分と\Trは入れ換えても同じ} \\
&=\Tr\l(\bC\bA\bX^\T\pdiff{\bB\bX}{X_{ij}}+\pdiff{\bC\bA\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{(C.20)積の微分}\\
&=\Tr\l(\bC\bA\bX^\T\pdiff{\bB\bX}{X_{ij}}\r)+\Tr\l(\pdiff{\bC\bA\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{和と\Trは交換可}\\
&=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\bC\bA\pdiff{\bX^\T}{X_{ij}}\bB\bX\r)~~~\cause{(C.20)積の微分} \\
&=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\pdiff{\bX^\T}{X_{ij}}\bB\bX\bC\bA\r)~~~\cause{(C.9)\Trの巡回} \\
&=\Tr\l(\bC\bA\bX^\T\bB\pdiff{\bX}{X_{ij}}\r)+\Tr\l(\l(\pdiff{\bX^\T}{X_{ij}}\bB\bX\bC\bA\r)^\T\r)~~~\cause{転置の\Trは元の\Trと同じ} \\
&=\Tr\l( \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T\r)\pdiff{\bX}{X_{ij}} \r)~~~\cause{和と\Trは交換可} \\
&=\Tr\l( \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T\r)\bJ^{ij} \r)~~~(\bJ^{ij}はシングルエントリ行列) \\
&=\l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T \r)_{ji}~~~\cmt{※9} \\
\therefore \pdiff{}{\bX}\Tr\l(\bA\bX^\T\bB\bX\bC\r)
&= \l(\bC\bA\bX^\T\bB+\bA^\T\bC^\T\bX^\T\bB^\T \r)^\T~~~(分母レイアウト) \\
&= \bB^\T\bX\bA^\T\bC^\T+\bB\bX\bC\bA
\end{align}
\]
\(\cmt{※7}~~~公式\ \pdiff{\ba^\T\bX^{-1}\bb}{\bX}=-\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T \)の導出
\[
\begin{align}
\pdiff{\ba^\T\bX^{-1}\bb}{X_{ij}} &= \ba^\T\pdiff{\bX^{-1}}{X_{ij}}\bb~~~\cause{(C.20)積の微分} \\
&= \ba^\T\l( -\bX^{-1}\pdiff{\bX}{X_{ij}}\bX^{-1}\r)\bb~~~\cause{(C.21)} \\
&= -\ba^\T\bX^{-1}\bJ^{ij}\bX^{-1}\bb~~~(\bJ^{ij}はシングルエントリ) \\
&= -\l\{\l(\ba^\T\bX^{-1}\r)^\T\l(\bX^{-1}\bb\r)^\T \r\}_{ij}~~~\cmt{※10} \\
&= -\l\{\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T \r\}_{ij} \\
\therefore \pdiff{\ba^\T\bX^{-1}\bb}{\bX} &= -\l(\bX^{-1}\r)^\T\ba\bb^\T\l(\bX^{-1}\r)^\T~(分母レイアウト)
\end{align}
\]