PRML演習10.4

\[ \newcommand\b[1]{\pmb{#1}} \newcommand\bx{\b{x}} \newcommand\bzero{\b{0}} \newcommand\bmu{\b{\mu}} \newcommand\bSigma{\b{\Sigma}} \newcommand\pdiff[2]{\frac{\partial #1}{\partial #2}} \newcommand\Tr[1]{\mathrm{Tr}\left[#1\right]} \newcommand\T{\mathrm{T}} \newcommand\Ex{\b{\mathrm{E}}} \newcommand\KL{\mathrm{KL}} \] \[ \leqalignno{ &q = N(\bx|\bmu,\bSigma) } \] とすると \[ \leqalignno{ \KL(p\|q) &= - \int p \ln \frac{q}{p}\,d\b{x} \\ &= - \int p \ln \frac{N(\bx|\bmu,\bSigma)}{p}\,d\bx \\ &= - \int p \left\{ - \frac{D}{2}\ln 2\pi - \frac{1}{2}\ln|\bSigma| - \frac{1}{2}(\bx - \bmu)^T\bSigma^{-1}(x - \bmu) - \ln p \right\}\,d\bx } \]

(\(\bmu\) について)

KLが極値となる \(\bmu\) は \[ \leqalignno{ &\pdiff{\KL}{\bmu} = \int p\left(- 2\bSigma^{-1}\bx + 2\bSigma^{-1}\bmu \right)\,d\bx = \bzero~~~~~※1 } \]

※1 積分可能っぽいので偏微分と積分の交換可能と思われる

で与えられる。これより \[ \leqalignno{ &- \int p\bSigma^{-1}\bx\,d\bx + \int p\bSigma^{-1}\bmu\,d\bx = \bzero \\ &\therefore - \bSigma^{-1}\int p \bx\,d\bx + \int p\,d\bx\bSigma^{-1}\bmu = \bzero \\ &\therefore - \bSigma^{-1}\Ex_p[\bx]+\bSigma^{-1}\bmu = \bzero \\ &\therefore \bmu = \Ex_p[\bx] } \] を得る。

(\(\bSigma\) について)

\(\ln N(\bx|\bmu,\bSigma)\) の極値を与える \(\bSigma\) の条件は、(9.19) において \(N=1,K=1,\pi_1=1\) とすれば得られるが、ここでは真面目に \(\bSigma\) で微分して停留条件を求めることにする。

\[ \leqalignno{ \pdiff{}{\Sigma_{ij}}(\bx - \bmu)^\T\bSigma^{-1}(\bx - \bmu) &= \pdiff{}{\Sigma_{ij}}\Tr{(\bx - \bmu)^\T\bSigma^{-1}(\bx - \bmu)}~\mbox{※2} \\ &= \pdiff{}{\Sigma_{ij}}\Tr{\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T}~\mbox{※3} \\ &= \Tr{\pdiff{}{\Sigma{ij}}\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T}~\mbox{※4} \\ &= \Tr{- \bSigma^{-1}\pdiff{\bSigma}{\Sigma{ij}}\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T}~\mbox{※5} \\ &= \Tr{- \bSigma^{-1}\b{J}^{ij}\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T}~\mbox{※6} \\ &= - \Tr{- \b{J}^{ij}\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T\bSigma^{-1}}~\mbox{※7} \\ &= - \left[\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T\bSigma^{-1}\right]_{ji}~\mbox{※8} \\ &= - \left[\bSigma^{-1}(\bx - \bmu)(\bx - \bmu)^\T\bSigma^{-1}\right]_{ij}~\mbox{※9} } \]

※2 スカラーなので Tr しても同じ

※3 Tr の循環 (C.9)

※4 成分計算よりTrと微分の交換はOK

※5 (C.11)

※6 \(\b{J}^{ij}\) はシングルエントリ行列

※7 (C.9)

※8 成分計算より

※9 [...]の中身が対称なので

行列にまとめて表記すると \[ \leqalignno{ &\pdiff{}{\bSigma}(\bx - \bmu)^\T\bSigma^{-1}(\bx - \bmu) = -\bSigma^{-1}(\bx - \bmu)^\T(\bx - \bmu)^\T\bSigma^{-1} &(1) } \] となる。次に \( \ln |\bSigma| \) の微分について

\[ \leqalignno{ \pdiff{}{\Sigma_{ij}}\ln|\bSigma| &= \Tr{\bSigma^{-1}\pdiff{\bSigma}{\Sigma_{ij}}}~\mbox{※10} \\ &= \Tr{\bSigma^{-1}\b{J}^{ij}}~\mbox{※11} \\ &= \Sigma_{ji}^{-1}~\mbox{※12} \\ &= \Sigma_{ij}^{-1}~\mbox{※13} } \]

※10 (C.22)

※11 \(\b{J}^{ij}\) はシングルエントリ

※12 成分計算より

※13 対称なので

行列にまとめて表記すると \[ \leqalignno{ &\pdiff{}{\bSigma}\ln|\bSigma| = \bSigma^{-1} &(2) } \] (1), (2)より \(\KL(p\|q)\) が極値をとる \(\bSigma\) は \[ \leqalignno{ &\pdiff{\KL(p\|q)}{\bSigma} = - \int p \left[-\frac{1}{2}\bSigma^{-1} -\frac{1}{2}\left\{-\bSigma^{-1}(\bx-\bmu)(\bx-\bmu)^\T\bSigma^{-1}\right\} \right]\,d\bx = O~~~\mbox{※14} } \]

※14 積分可能っぽいので偏微分と積分は交換可能と思われる

で与えられる。よって \[ \leqalignno{ \bSigma^{-1} \underbrace{ \int p d\bx }_1 - \bSigma^{-1} \underbrace{ \int p(\bx -\bmu)(\bx -\bmu)^\T d\bx }_{\mathrm{cov}_p\left[\bx\right]~~~※15} \bSigma^{-1} = O } \]

※15 \( \int p(\bx -\bmu)(\bx -\bmu)^\T d\bx =\Ex_p\left[(\bx-\bmu)(\bx-\bmu)^\T\right]=\mathrm{cov}_p\left[\bx\right] \leftarrow \mbox{共分散の定義より} \)

両辺に左右から \( \bSigma \) を掛けて整理すると \[ \leqalignno{ \bSigma = \mathrm{cov}_p\left[\bx\right] } \] を得る。