PRML演習10.3

\[ \leqalignno{ &KL(p\|q) = -\int p(\mathbf{Z}) \left[\sum_{i=1}^M \ln q_i(Z_i)\right] \,d\mathbf{Z} + C &(10.16) } \] \(q_j\) についての制約条件は \[ \leqalignno{ &\int q_j\,dZ_j = 1 } \] なので、KLの極値※1を求めるためのラグランジュ関数は \[ \leqalignno{ &L = KL(p\|q) + \lambda\left(\int q_j\,dZ_j-1\right) } \] となる。

\( \leqalignno{ \mbox{※1}\; &\frac{\partial KL}{\partial q_i}=-\int p(\mathbf{Z}) \frac{1}{q_i}\,d\mathbf{Z} \\ &\frac{\partial^2 KL}{\partial q_i^2} = \int p(\mathbf{Z})\frac{1}{q_i^2}\,d\mathbf{Z}\gt 0 \\ &\mbox{なのでKLは下に凸なので極値は極小となる} } \)

ラグランジ乗数法で \(q_j\) を求めようとすると、停留条件 (E.3) より \[ \leqalignno{ &\frac{\partial L}{\partial q_j} = \frac{\partial KL}{\partial q_j} + \lambda \frac{\partial}{\partial q_j} \int q_j \, dZ_j = 0 &(1) \\ &\frac{\partial L}{\partial \lambda} = \int q_j \, dZ_j - 1 = 0 &(2) } \] となるが (1) については \(\frac{\partial}{\partial q_j}\int q_j\,dZ_j\) ※2をこれ以上変形することができず \(q_j\) について解くことができない。なので変分法で \(q_j\) を求める。

※2 \(q_j\) と \(Z_j\) は独立でないので微分と積分は交換できない.

ここで、 \[ \leqalignno{ L &= KL(p\|q) + \lambda\left(\int q_j\,dZ_j - 1 \right) \\ &= - \int p(\mathbf{Z})\left[\sum_{i=1}^M \ln q_i \right]\,d\mathbf{Z} + C + \lambda \left(\int q_j\,dZ_j - 1 \right) \\ &= - \int \left[\int p(\mathbf{Z})\left[\sum_{i=1}^M \ln q_i \right]\prod_{i \ne j}\,dZ_i \right]\,dZ_j + \lambda \int q_j\, dZ_j + (c + \lambda) \\ &= \int\left[-\int p(\mathbf{Z})\left[\sum_{i=1}^M\ln q_i\right]\prod_{i\ne j}\,dZ_i + \lambda q_j + (c+\lambda)\delta(Z_j)\right]\,dZ_j } \] である。 L は \(q_j\) の汎関数になっている。なので、 L の停留条件はオイラーラグランジュ方程式 (D.8) で与えられる。 \[ \leqalignno{ &-\int p(\mathbf{Z})\frac{1}{q_j}\prod_{i\ne j}\,dZ_j + \lambda = 0~~~\mbox{※3} \\ &\therefore -\frac{1}{q_j}\int p(\mathbf{Z})\prod_{i\ne j}\,dZ_j + \lambda = 0 \\ &\therefore \lambda q_j = \int p(\mathbf{Z})\prod_{i\ne j}\,dZ_j = p(Z_j)~~~\mbox{※4} &(3) } \]

\( \leqalignno{ \mbox{※3}~~ &\frac{\partial}{\partial q_j}\int p(\mathbf{Z})\sum\ln q_i\prod_{i\ne j}\,dZ_i = \int p(\mathbf{Z})\left(\frac{\partial}{\partial q_j}\sum\ln q_i\right)\prod_{i\ne j}\,dZ_i \\ &= \int p(\mathbf{Z})\frac{1}{q_j}\prod_{i\ne j}\,dZ_i = \frac{1}{q_j}\int p(\mathbf{Z})\prod_{i\ne j}\,dZ_i \\ &\mbox{\(q_j\)と\(Z_i(i\ne j)\)は独立で、最後の積分は収束するので、} \\ &\mbox{最初に行った偏微分と積分の交換は可能である} } \)

※4 この積分は、\(p(Z_1,Z_2 \dots) \) の\(\{Z_i\}_{i\ne j}\)についての周辺化になっているので

(3)の両辺を \(Z_j\) で周辺化して (2) を代入する \[ \leqalignno{ &\lambda\int q_j\,dZ_j = \int p(Z_j)\,dZ_j \\ &\therefore \lambda = 1 } \] (3) に戻して \[ \leqalignno{ &q_j = p(Z_j) } \] を得る。