\[
\newcommand\b[1]{\pmb{#1}}
\newcommand\bx{\b{x}}
\newcommand\bzero{\b{0}}
\newcommand\bmu{\b{\mu}}
\newcommand\bSigma{\b{\Sigma}}
\newcommand\pdiff[2]{\frac{\partial #1}{\partial #2}}
\newcommand\Tr[1]{\mathrm{Tr}\left[#1\right]}
\newcommand\T{\mathrm{T}}
\newcommand\Ex{\b{\mathrm{E}}}
\newcommand\KL{\mathrm{KL}}
\]
\[
\leqalignno{
&q = N(\bx|\bmu,\bSigma)
}
\]
とすると
\[
\leqalignno{
\KL(p\|q) &= - \int p \ln \frac{q}{p}\,d\b{x} \\
&= - \int p \ln \frac{N(\bx|\bmu,\bSigma)}{p}\,d\bx \\
&= - \int p \left\{
- \frac{D}{2}\ln 2\pi
- \frac{1}{2}\ln|\bSigma|
- \frac{1}{2}(\bx - \bmu)^T\bSigma^{-1}(x - \bmu)
- \ln p
\right\}\,d\bx
}
\]
(\(\bmu\) について)
KLが極値となる \(\bmu\) は
\[
\leqalignno{
&\pdiff{\KL}{\bmu} = \int p\left(- 2\bSigma^{-1}\bx + 2\bSigma^{-1}\bmu \right)\,d\bx = \bzero~~~~~※1
}
\]
で与えられる。これより
\[
\leqalignno{
&- \int p\bSigma^{-1}\bx\,d\bx + \int p\bSigma^{-1}\bmu\,d\bx = \bzero \\
&\therefore - \bSigma^{-1}\int p \bx\,d\bx + \int p\,d\bx\bSigma^{-1}\bmu = \bzero \\
&\therefore - \bSigma^{-1}\Ex_p[\bx]+\bSigma^{-1}\bmu = \bzero \\
&\therefore \bmu = \Ex_p[\bx]
}
\]
を得る。
(\(\bSigma\) について)
\(\ln N(\bx|\bmu,\bSigma)\) の極値を与える \(\bSigma\) の条件は、(9.19) において \(N=1,K=1,\pi_1=1\) とすれば得られるが、ここでは真面目に \(\bSigma\) で微分して停留条件を求めることにする。
\[
\leqalignno{
\pdiff{}{\Sigma_{ij}}(\bx - \bmu)^\T\bSigma^{-1}(\bx - \bmu)
&= \pdiff{}{\Sigma_{ij}}\Tr{(\bx - \bmu)^\T\bSigma^{-1}(\bx - \bmu)}~\mbox{※2} \\
&= \pdiff{}{\Sigma_{ij}}\Tr{\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T}~\mbox{※3} \\
&= \Tr{\pdiff{}{\Sigma{ij}}\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T}~\mbox{※4} \\
&= \Tr{- \bSigma^{-1}\pdiff{\bSigma}{\Sigma{ij}}\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T}~\mbox{※5} \\
&= \Tr{- \bSigma^{-1}\b{J}^{ij}\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T}~\mbox{※6} \\
&= - \Tr{- \b{J}^{ij}\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T\bSigma^{-1}}~\mbox{※7} \\
&= - \left[\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T\bSigma^{-1}\right]_{ji}~\mbox{※8} \\
&= - \left[\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T\bSigma^{-1}\right]_{ij}~\mbox{※9}
}
\]
行列にまとめて表記すると
\[
\leqalignno{
&\pdiff{}{\bSigma}(\bx - \bmu)^\T\bSigma^{-1}(\bx - \bmu)
= -\bSigma^{-1}(\bx - \bmu)^\T(\bx - \bmu)^\T\bSigma^{-1} &(1)
}
\]
となる。次に \( \ln |\bSigma| \) の微分について
\[
\leqalignno{
\pdiff{}{\Sigma_{ij}}\ln|\bSigma|
&= \Tr{\bSigma^{-1}\pdiff{\bSigma}{\Sigma_{ij}}}~\mbox{※10} \\
&= \Tr{\bSigma^{-1}\b{J}^{ij}}~\mbox{※11} \\
&= \Sigma_{ji}^{-1}~\mbox{※12} \\
&= \Sigma_{ij}^{-1}~\mbox{※13}
}
\]
行列にまとめて表記すると
\[
\leqalignno{
&\pdiff{}{\bSigma}\ln|\bSigma| = \bSigma^{-1} &(2)
}
\]
(1), (2)より \(\KL(p\|q)\) が極値をとる \(\bSigma\) は
\[
\leqalignno{
&\pdiff{\KL(p\|q)}{\bSigma} = - \int p \left[-\frac{1}{2}\bSigma^{-1}
-\frac{1}{2}\left\{-\bSigma^{-1}(\bx-\bmu)(\bx-\bmu)^\T\bSigma^{-1}\right\} \right]\,d\bx = O~~~\mbox{※14}
}
\]
で与えられる。よって
\[
\leqalignno{
\bSigma^{-1} \underbrace{ \int p d\bx }_1 - \bSigma^{-1} \underbrace{ \int p(\bx -\bmu)(\bx -\bmu)^\T d\bx }_{\mathrm{cov}_p\left[\bx\right]~~~※15} \bSigma^{-1} = O
}
\]
両辺に左右から \( \bSigma \) を掛けて整理すると
\[
\leqalignno{
\bSigma = \mathrm{cov}_p\left[\bx\right]
}
\]
を得る。