\[
\newcommand\l{\left}
\newcommand\r{\right}
\newcommand\tcmt[1]{\class{TinyCmt}{\mbox{#1}}}
\newcommand\cmt[1]{\class{Cmt}{\mbox{#1}}}
\newcommand\cause[1]{\class{Tiny}{(\because #1)}}
\newcommand\b[1]{\class{Bold}{\mathrm{#1}}}
\newcommand\bx{\b{x}}
\newcommand\bmu{\b{\mu}}
\newcommand\pdiff[2]{\frac{\partial #1}{\partial #2}}
\]
\[
\begin{align}
J = \sum_{n=1}^N \sum_{k=1}^K \gamma_{nk} \| \bx_n - \bmu_k \|^2 \tag{9.1}
\end{align}
\]
\(J\) の極小点は
\[
\begin{align}
0 = \pdiff{J}{\bmu_k}
&= \sum_{n=1}^N \gamma_{nk} \pdiff{}{\bmu_k} \| \bx_n - \bmu_k \|^2 \\
&= \sum_{n=1}^N \gamma_{nk} \{ - 2 (\bx_n - \bmu_k) \} ~~~ \cmt{※1}
\end{align}
\]
で与えられる。
\(\gamma_{nk} = 1\) となる \(\bx_n\) を \(\bx_{ik} \) とし、\(\gamma_{nk} = 1\) となる
\(\bx_n\) の個数を \(N_k\) とすると
\[
\begin{align}
0 = \sum_{i=1}^{N_k} \{ -2 (\bx_{ik} - \bmu_k) \} \tag{1}
\end{align}
\]
となる。(1) の右辺の \(\bx_{ik} - \bmu_k \) という形から類推して
\[
p(\bx_{ik} \mid \bmu_k) = {\cal N}(\bx_{ik} \mid \bmu_k, \b{I})
\]
という分布を考える。すると
\[
\begin{align}
& - \pdiff{}{\bmu_k} \{ \frac{1}{N_k}\sum_{i=1}^{N_k} \ln p(\bx_{ik} \mid \bmu_k) \} \\
& ~~~ = -\frac{1}{N_k} \sum_{i=1}^{N_k} \{ \pdiff{}{\bmu_k} \ln p(\bx_{ik} \mid \bmu_k) \} \\
& ~~~ = -\frac{1}{N_k} \sum_{i=1}^{N_k} (\bx_{ik} - \bmu_k) ~~~ \cmt{※5} \\
& ~~~ = 0 ~~~(\because (1))
\end{align}
\]
となり、(2.133)と同じような式が得られる。また(2.134)と同様に以下の式
\[
- \lim_{N_k \rightarrow\infty} \frac{1}{N_k} \sum_{i=1}^{N_k} \pdiff{}{\bmu_k} \ln p(\bx_{ik} \mid \bmu_k)
= \mathbb{E}_{\bx_{ik}} \l[-\pdiff{}{\bmu_k}\ln p(\bx_{ik}\mid \bmu_k) \r]
\]
が成立している。なので結局 (1) の解は、
\( p(\bx_{ik} \mid \bmu_k) = {\cal N}(\bx_{ik} \mid \bmu_k, \b{I}) \) としたときの 回帰関数
\(\mathbb{E}_{\bx_{ik}} \l[ -\pdiff{}{\bmu_k}\ln p(\bx_{ik} \mid \bmu_k) \r] = 0\) の根と同じであることが分かる。
なので、Robbins-Monro法を適用することができ、(2.135) に対応する式
\[
\bmu_k^{(i)} = \bmu_k^{(i-1)} - a_{i-1}\pdiff{}{\bmu_k^{(i-1)}}\l[-\ln p(\bx_{ik} \mid \bmu_k^{(i-1)}) \r]
\]
を使うことができる。これより
\[
\bmu_k^{(i)} = \bmu_k^{(i-1)} - a_{i-1}(\bx_{ik} - \bmu_k^{(i-1)}) ~~~(\because \cmt{※5}より)
\]
を得る。\((i)\) を \(new\) とし、\((i-1)\) を \(old\) とし、\(\bx_{ik}\) を \(\bx_n\) に戻し \(a_{i-1} \) を \(\eta_n\) とおくと
\[
\begin{align}
\bmu_k^{new} = \bmu_k^{old} - \eta_n(\bx_n - \bmu_k^{old}) \tag{9.5}
\end{align}
\]
を得る。
Robbins-Monro法は、更新ステップで使う観測値 \( \b{z}_n = \bx_n - \bmu_k^{old} \) が確率的にあたえられる。このため、\(\bmu_k^{new}\) が解 \(\bmu_k\) に確率的に近づく(酔歩っぽく近づく)。なのでこれを確率的アルゴリズムといっている。