PRML演習12.2

\[ \newcommand\comment[1]{\color{red}{{\Tiny\mbox{#1}}}} \newcommand\l{\left} \newcommand\r{\right} \newcommand\pdiff[2]{\frac{\partial #1}{\partial #2}} \newcommand\b[1]{\pmb{\mathrm{#1}}} \newcommand\T{\mathsf{T}} \newcommand\bu{\b{u}} \newcommand\bS{\b{S}} \newcommand\bU{\b{U}} \newcommand\bH{\b{H}} \newcommand\bI{\b{I}} \newcommand\bV{\b{V}} \newcommand\bK{\b{K}} \newcommand\bN{\b{N}} \newcommand\bphi{\b{\phi}} \newcommand\bPhi{\b{\Phi}} \newcommand\Jt{\stackrel{\thicksim}{J}} \newcommand\bVt{\stackrel{\thicksim}{\bV}} \newcommand\bUh{\widehat{\bU}} \newcommand\bUhT{\bUh^{\T}} \newcommand\bVh{\widehat{\bV}} \newcommand\bVhT{\bVh^{\T}} \newcommand\Tr[1]{\mathrm{Tr}\l(#1\r)} \newcommand\Hmatold{\pmatrix{\lambda_{M+1} & \ldots & \frac{1}{2}\mu_{M+1,D} \\ \vdots & \ddots & \vdots \\ \frac{1}{2}\mu_{M+1,D} & \ldots & \lambda_{D} }} \newcommand\Hmat{\pmatrix{\lambda_{M+1} & \frac{1}{2}\mu_{M+1,M+2} & \ldots & \frac{1}{2}\mu_{M+1,D} \\ \frac{1}{2}\mu_{M+1,M+2} & \lambda_{M+2} & \ldots & \vdots \\ \vdots & \vdots & \ddots & \vdots \\ \frac{1}{2}\mu_{M+1,D} & \ldots & \ldots & \lambda_{D} }} \newcommand\Imat{\pmatrix{1 & 0 & \ldots & 0 \\ 0 & 1 & \ldots & \vdots \\ \vdots & \vdots & \ddots & \vdots \\ 0 & \ldots & \ldots & 1 \\ }} \newcommand\uurow{ \pmatrix{\uu{M+1} & \uu{M+2} & \ldots & \uu{D}} } \newcommand\uucol{ \pmatrix{\uuT{M+1} \\ \uuT{M+2} \\ \vdots \\ \uuT{D}} } \newcommand\Surow{ \pmatrix{\bS\uu{M+1} & \bS\uu{M+2} & \ldots & \bS\uu{D}} } \newcommand\uSumat{\pmatrix{ \uuT{M+1}\bS\uu{M+1} & \uuT{M+1}\bS\uu{M+2} & \ldots & \uuT{M+1}\bS\uu{D} \\ \uuT{M+2}\bS\uu{M+1} & \uuT{M+2}\bS\uu{M+2} & \ldots & \vdots \\ \vdots & \vdots & \ddots & \vdots \\ \uuT{D}\bS\uu{M+1} & \ldots & \ldots & \uuT{D}\bS\uu{D} }} \newcommand\UUmat{\pmatrix{ \uuT{M+1}\uu{M+1} & \uuT{M+1}\uu{M+2} & \ldots & \uuT{M+1}\uu{D} \\ \uuT{M+2}\uu{M+1} & \uuT{M+2}\uu{M+2} & \ldots & \vdots \\ \vdots & \vdots & \ddots & \vdots \\ \uuT{D}\uu{M+1} & \ldots & \ldots & \uuT{D}\uu{D} }} \newcommand\IUmat{\pmatrix{ 1 - \uuT{M+1}\uu{M+1} & -\uuT{M+1}\uu{M+2} & \ldots & -\uuT{M+1}\uu{D} \\ -\uuT{M+2}\uu{M+1} & 1 - \uuT{M+2}\uu{M+2} & \ldots & \vdots \\ \vdots & \vdots & \ddots & \vdots \\ -\uuT{D}\uu{M+1} & \ldots & \ldots & 1 - \uuT{D}\uu{D} }} \newcommand\uu[1]{\bu_{#1}} \newcommand\uuT[1]{\uu{#1}^{\T}} \] データ空間D次元、主部分空間M次元のとき歪み尺度を最小化するラグランジアンは \[ \leqalignno{ &\Jt = \underbrace{\sum_{i=M+1}^D \uuT{i} \bS \uu{i}}_{歪み尺度J} + \underbrace{\sum_{i=M+1}^D \lambda_i (1-\uuT{i} \uu{i})}_{\uu{i} が規格化されている条件} + \underbrace{\sum_{i=M+1}^{D-1}\sum_{j=i+1}^{D}\mu_{ij}(-\uuT{j}\uu{i})}_{\uu{j} と \uu{i} が直交している条件} &(1) } \] である。ここで \[ \leqalignno{ &\bUh = \uurow \\ &\bH = \Hmat\ (\bHは対称とする) \\ } \] とすると \[ \leqalignno{ \bUhT\bS\bUh &= {\small \uucol \bS \uurow } \\ &= {\small \uucol \Surow ~~~(\because ブロック行列の積) }\\ &= {\small \uSumat ~~~(\because ブロック行列の積) } } \] なので \[ \leqalignno{ &\Tr{\bUhT\bS\bUh} = \sum_{i=M+1}^D \uuT{i} \bS \uu{i} &(2) } \] また \[ \leqalignno{ &\bH(\bI - \bUhT\bUh) \\ &~= {\small \bH \l( \bI - \uucol \uurow \r) } \\ &~= {\small \bH \l( \Imat - \UUmat \r) } \\ &~= {\small \Hmat \IUmat } } \] これより \[ \leqalignno{ &\Tr{\bH(\bI-\bUhT\bUh)} \\ &~= \lambda_{M+1}(1-\uuT{M+1}\uu{M+1}) + \frac{1}{2}\mu_{M+1,M+2}(-\uuT{M+2}\uu{M+1}) + \ldots + \frac{1}{2}\mu_{M+1,D}(-\uuT{D}\uu{M+1}) \\ &~~~~ + \frac{1}{2}\mu_{M+1,M+2}(-\uuT{M+1}\uu{M+2}) + \lambda_{M+2}(1-\uuT{M+2}\uu{M+2}) + \ldots \\ &~~~~~~~~~~~~~~~ \vdots \\ &~~~~ + \frac{1}{2}\mu_{M+1,D}(-\uuT{M+1}\uu{D}) + \ldots + \lambda_D(1-\uuT{D}\uu{D}) \\ &~= \sum_{i=M+1}^D \lambda_i (1 - \uuT{i}\uu{i}) + \sum_{i=M+1}^{D-1}\sum_{j=i+1}^D \mu_{ij}(-\uuT{j}\uu{i}) &(3) } \] となる。 (2), (3) より (1)は \[ \leqalignno{ &\Jt = \Tr{\bUhT\bS\bUh} + \Tr{\bH(\bI-\bUhT\bUh)} } \] と表すことができる。\(\Jt\) を最小にする\(\bUh\)の条件は、\(\Jt\)を\(\bUh\)で微分して０としたもので与えられる。ここで \[ \leqalignno{ \pdiff{}{\bUh}\Tr{\bUhT\bS\bUh} =\underset{\comment{※ }成分計算より}{ \l( \pdiff{}{\bUhT} \Tr{\bUhT\bS\bUh} \r)^{\T} } =\underset{\comment{※ }(C.27)より}{ \l(\bUhT(\bS+\bS^{\T}) \r)^{\T} } =\underset{\comment{※ }\bS=\bS^{\T}より}{ 2\l( \bUhT\bS \r)^{\T} } =2\bS\bUh } \] また \[ \leqalignno{ \pdiff{}{\bUh}\Tr{\bH(\bI-\bUhT\bUh)} &= \underset{\comment{※ }和とトレースは交換可}{ \pdiff{}{\bUh}\l\{ \Tr{\bH} - \Tr{\bH\bUhT\bUh} \r\} } = \underset{\comment{※ }\pdiff{}{\bUh}\Tr{\bH}=0\ また(C.9)}{ - \pdiff{}{\bUh} \Tr{\bUh\bH\bUhT} } \\ &= \underset{\comment{※ }(C.27)}{ -\bUh(\bH+\bH^{\T}) } = \underset{\comment{※ }\bH=\bH^{\T}}{ = -2\bUh\bH } } \] これらを使って \[ \leqalignno{ &0 = \pdiff{\Jt}{\bUh} = 2(\bS\bUh-\bUh\bH) \\ &\therefore \bS\bUh = \bUh \bH &(4) } \] を得る。条件(4)は、\(S\)の固有方程式をまとめた形になっているので \[ \leqalignno{ &\bH = \pmatrix{\lambda_{M+1} & & 0 \\ & \ddots & \\ 0 & & \lambda_D }\ ,\ \lambda_{M+1} \sim \lambda_D は \bS の固有値 \\ &\bUh = \pmatrix{\uu{M+1} & \ldots & \uu{D}}\ ,\ \uu{M+1} \sim \uu{D} は、固有ベクトル } \] とすると成立している。このとき \[ \leqalignno{ \Jt &= \Tr{\bUhT\bS\bUh} + \Tr{\bH(\bI-\bUhT\bUh)} \\ &= \Tr{\bUhT\bUh\bH} + \Tr{\bH(\bI-\bUhT\bUh)} \\ &= \Tr{\bH} = \sum_{i=M+1}^D \lambda_i } \] となる。\(\Jt\)を最小にするには、\( \lambda_{M+1} \sim \lambda_D \)として \(\bS\) の小さい方の固有値を選べばよい。

(この先はWebの解答みた。)
上で、条件(4)の解として\(\bH,\ \bUh\)が\(\bS\)の固有値、固有ベクトルからなる特解を考えたが、条件(4)の一般解について\(\Jt\)がどうなるか考える。

\(\bVh,\ \bK\)を条件(4)の一般解とすると \[ \leqalignno{ \bS\bVh = \bVh \bK } \] \(\bK\)の固有値を\(\ \nu_1,\ \ldots\ ,\nu_{D-M}\ \)、固有ベクトルを\(\ \bphi_1,\ \ldots, \bphi_{D-M}\ \)とする。（なお縮退してるときは固有値が重複してるかもしれない）ここで \[ \leqalignno{ &\bN = \pmatrix{\nu_1 & & 0 \\ & \ddots & \\ 0 & & \nu_{D-M}} \\ &\bPhi = \pmatrix{\bphi_1 & \ldots & \bphi_{D-M}} } \] とおくと \[ \leqalignno{ &\bK\bPhi = \bPhi \bN &(4) } \] である。\(\bS\bVh = \bVh \bK\)の両辺に\(\bPhi\)をかけると \[ \leqalignno{ &\bS\bVh\bPhi = \bVh\bK\bPhi } \] (4)を使って \[ \leqalignno{ &\bS\bVh\bPhi = \bVh\bPhi\bN } \] を得る。ここで、\(\bVh\bPhi = \bVt \)とおくと \[ \leqalignno{ &\bS\bVt = \bVt \bN } \] となる。これは対角行列 \(\bN\) の要素 \(\nu_i\)が \(\bS\) の固有値であることを示している。ここで\(\Jt\)は \[ \leqalignno{ \Jt &= \Tr{\bVhT\bS\bVh}+\Tr{\bK(\bI-\bVhT\bVh)} \\ &= \Tr{\bK} = \underset{\comment{※ }(C.48)}{\sum_{i=1}^{D-M}} \nu_i } \] であるが、これを最小にするには、\(\nu_i\) を \(\bS\) の小さい方の\(D-M\)個の固有値とすればよい。よって \(\Jt\) は、条件(4)が特解で与えられる場合でも、一般解で与えられる場合でも同じ値になる。