\[
\newcommand\comment[1]{\color{red}{{\Tiny\mbox{#1}}}}
\newcommand\l{\left}
\newcommand\r{\right}
\newcommand\pdiff[2]{\frac{\partial #1}{\partial #2}}
\newcommand\b[1]{\pmb{\mathrm{#1}}}
\newcommand\T{\mathsf{T}}
\newcommand\bu{\b{u}}
\newcommand\bS{\b{S}}
\newcommand\bU{\b{U}}
\newcommand\bH{\b{H}}
\newcommand\bI{\b{I}}
\newcommand\bV{\b{V}}
\newcommand\bK{\b{K}}
\newcommand\bN{\b{N}}
\newcommand\bphi{\b{\phi}}
\newcommand\bPhi{\b{\Phi}}
\newcommand\Jt{\stackrel{\thicksim}{J}}
\newcommand\bVt{\stackrel{\thicksim}{\bV}}
\newcommand\bUh{\widehat{\bU}}
\newcommand\bUhT{\bUh^{\T}}
\newcommand\bVh{\widehat{\bV}}
\newcommand\bVhT{\bVh^{\T}}
\newcommand\Tr[1]{\mathrm{Tr}\l(#1\r)}
\newcommand\Hmatold{\pmatrix{\lambda_{M+1} & \ldots & \frac{1}{2}\mu_{M+1,D} \\
\vdots & \ddots & \vdots \\
\frac{1}{2}\mu_{M+1,D} & \ldots & \lambda_{D} }}
\newcommand\Hmat{\pmatrix{\lambda_{M+1} & \frac{1}{2}\mu_{M+1,M+2} & \ldots & \frac{1}{2}\mu_{M+1,D} \\
\frac{1}{2}\mu_{M+1,M+2} & \lambda_{M+2} & \ldots & \vdots \\
\vdots & \vdots & \ddots & \vdots \\
\frac{1}{2}\mu_{M+1,D} & \ldots & \ldots & \lambda_{D} }}
\newcommand\Imat{\pmatrix{1 & 0 & \ldots & 0 \\
0 & 1 & \ldots & \vdots \\
\vdots & \vdots & \ddots & \vdots \\
0 & \ldots & \ldots & 1 \\
}}
\newcommand\uurow{ \pmatrix{\uu{M+1} & \uu{M+2} & \ldots & \uu{D}} }
\newcommand\uucol{ \pmatrix{\uuT{M+1} \\ \uuT{M+2} \\ \vdots \\ \uuT{D}} }
\newcommand\Surow{ \pmatrix{\bS\uu{M+1} & \bS\uu{M+2} & \ldots & \bS\uu{D}} }
\newcommand\uSumat{\pmatrix{
\uuT{M+1}\bS\uu{M+1} & \uuT{M+1}\bS\uu{M+2} & \ldots & \uuT{M+1}\bS\uu{D} \\
\uuT{M+2}\bS\uu{M+1} & \uuT{M+2}\bS\uu{M+2} & \ldots & \vdots \\
\vdots & \vdots & \ddots & \vdots \\
\uuT{D}\bS\uu{M+1} & \ldots & \ldots & \uuT{D}\bS\uu{D}
}}
\newcommand\UUmat{\pmatrix{
\uuT{M+1}\uu{M+1} & \uuT{M+1}\uu{M+2} & \ldots & \uuT{M+1}\uu{D} \\
\uuT{M+2}\uu{M+1} & \uuT{M+2}\uu{M+2} & \ldots & \vdots \\
\vdots & \vdots & \ddots & \vdots \\
\uuT{D}\uu{M+1} & \ldots & \ldots & \uuT{D}\uu{D}
}}
\newcommand\IUmat{\pmatrix{
1 - \uuT{M+1}\uu{M+1} & -\uuT{M+1}\uu{M+2} & \ldots & -\uuT{M+1}\uu{D} \\
-\uuT{M+2}\uu{M+1} & 1 - \uuT{M+2}\uu{M+2} & \ldots & \vdots \\
\vdots & \vdots & \ddots & \vdots \\
-\uuT{D}\uu{M+1} & \ldots & \ldots & 1 - \uuT{D}\uu{D}
}}
\newcommand\uu[1]{\bu_{#1}}
\newcommand\uuT[1]{\uu{#1}^{\T}}
\]
データ空間D次元、主部分空間M次元のとき歪み尺度を最小化するラグランジアンは
\[
\leqalignno{
&\Jt = \underbrace{\sum_{i=M+1}^D \uuT{i} \bS \uu{i}}_{歪み尺度J} +
\underbrace{\sum_{i=M+1}^D \lambda_i (1-\uuT{i} \uu{i})}_{\uu{i} が規格化されている条件} +
\underbrace{\sum_{i=M+1}^{D-1}\sum_{j=i+1}^{D}\mu_{ij}(-\uuT{j}\uu{i})}_{\uu{j}
と \uu{i} が直交している条件} &(1)
}
\]
である。ここで
\[
\leqalignno{
&\bUh = \uurow \\
&\bH = \Hmat\ (\bHは対称とする) \\
}
\]
とすると
\[
\leqalignno{
\bUhT\bS\bUh &= {\small \uucol \bS \uurow } \\
&= {\small \uucol \Surow ~~~(\because ブロック行列の積) }\\
&= {\small \uSumat ~~~(\because ブロック行列の積) }
}
\]
なので
\[
\leqalignno{
&\Tr{\bUhT\bS\bUh} = \sum_{i=M+1}^D \uuT{i} \bS \uu{i} &(2)
}
\]
また
\[
\leqalignno{
&\bH(\bI - \bUhT\bUh) \\
&~= {\small \bH \l( \bI - \uucol \uurow \r) } \\
&~= {\small \bH \l( \Imat - \UUmat \r) } \\
&~= {\small \Hmat \IUmat }
}
\]
これより
\[
\leqalignno{
&\Tr{\bH(\bI-\bUhT\bUh)} \\
&~= \lambda_{M+1}(1-\uuT{M+1}\uu{M+1}) +
\frac{1}{2}\mu_{M+1,M+2}(-\uuT{M+2}\uu{M+1}) + \ldots +
\frac{1}{2}\mu_{M+1,D}(-\uuT{D}\uu{M+1}) \\
&~~~~ + \frac{1}{2}\mu_{M+1,M+2}(-\uuT{M+1}\uu{M+2}) + \lambda_{M+2}(1-\uuT{M+2}\uu{M+2}) + \ldots \\
&~~~~~~~~~~~~~~~ \vdots \\
&~~~~ + \frac{1}{2}\mu_{M+1,D}(-\uuT{M+1}\uu{D}) + \ldots + \lambda_D(1-\uuT{D}\uu{D}) \\
&~= \sum_{i=M+1}^D \lambda_i (1 - \uuT{i}\uu{i}) + \sum_{i=M+1}^{D-1}\sum_{j=i+1}^D \mu_{ij}(-\uuT{j}\uu{i}) &(3)
}
\]
となる。 (2), (3) より (1)は
\[
\leqalignno{
&\Jt = \Tr{\bUhT\bS\bUh} + \Tr{\bH(\bI-\bUhT\bUh)}
}
\]
と表すことができる。\(\Jt\) を最小にする\(\bUh\)の条件は、\(\Jt\)を\(\bUh\)で微分して0としたもので与えられる。ここで
\[
\leqalignno{
\pdiff{}{\bUh}\Tr{\bUhT\bS\bUh}
=\underset{\comment{※ }成分計算より}{ \l( \pdiff{}{\bUhT} \Tr{\bUhT\bS\bUh} \r)^{\T} }
=\underset{\comment{※ }(C.27)より}{ \l(\bUhT(\bS+\bS^{\T}) \r)^{\T} }
=\underset{\comment{※ }\bS=\bS^{\T}より}{ 2\l( \bUhT\bS \r)^{\T} }
=2\bS\bUh
}
\]
また
\[
\leqalignno{
\pdiff{}{\bUh}\Tr{\bH(\bI-\bUhT\bUh)}
&= \underset{\comment{※ }和とトレースは交換可}{ \pdiff{}{\bUh}\l\{ \Tr{\bH} - \Tr{\bH\bUhT\bUh} \r\} }
= \underset{\comment{※ }\pdiff{}{\bUh}\Tr{\bH}=0\ また(C.9)}{ - \pdiff{}{\bUh} \Tr{\bUh\bH\bUhT} } \\
&= \underset{\comment{※ }(C.27)}{ -\bUh(\bH+\bH^{\T}) }
= \underset{\comment{※ }\bH=\bH^{\T}}{ = -2\bUh\bH }
}
\]
これらを使って
\[
\leqalignno{
&0 = \pdiff{\Jt}{\bUh} = 2(\bS\bUh-\bUh\bH) \\
&\therefore \bS\bUh = \bUh \bH &(4)
}
\]
を得る。条件(4)は、\(S\)の固有方程式をまとめた形になっているので
\[
\leqalignno{
&\bH = \pmatrix{\lambda_{M+1} & & 0 \\
& \ddots & \\
0 & & \lambda_D }\ ,\ \lambda_{M+1} \sim \lambda_D は \bS の固有値 \\
&\bUh = \pmatrix{\uu{M+1} & \ldots & \uu{D}}\ ,\ \uu{M+1} \sim \uu{D} は、固有ベクトル
}
\]
とすると成立している。このとき
\[
\leqalignno{
\Jt &= \Tr{\bUhT\bS\bUh} + \Tr{\bH(\bI-\bUhT\bUh)} \\
&= \Tr{\bUhT\bUh\bH} + \Tr{\bH(\bI-\bUhT\bUh)} \\
&= \Tr{\bH} = \sum_{i=M+1}^D \lambda_i
}
\]
となる。\(\Jt\)を最小にするには、\( \lambda_{M+1} \sim \lambda_D \)として \(\bS\) の小さい方の固有値を選べばよい。
(この先はWebの解答みた。)
上で、条件(4)の解として\(\bH,\ \bUh\)が\(\bS\)の固有値、固有ベクトルからなる特解を考えたが、条件(4)の一般解について\(\Jt\)がどうなるか考える。
\(\bVh,\ \bK\)を条件(4)の一般解とすると
\[
\leqalignno{
\bS\bVh = \bVh \bK
}
\]
\(\bK\)の固有値を\(\ \nu_1,\ \ldots\ ,\nu_{D-M}\ \)、固有ベクトルを\(\ \bphi_1,\ \ldots, \bphi_{D-M}\ \)とする。(なお縮退してるときは固有値が重複してるかもしれない)ここで
\[
\leqalignno{
&\bN = \pmatrix{\nu_1 & & 0 \\ & \ddots & \\ 0 & & \nu_{D-M}} \\
&\bPhi = \pmatrix{\bphi_1 & \ldots & \bphi_{D-M}}
}
\]
とおくと
\[
\leqalignno{
&\bK\bPhi = \bPhi \bN &(4)
}
\]
である。\(\bS\bVh = \bVh \bK\)の両辺に\(\bPhi\)をかけると
\[
\leqalignno{
&\bS\bVh\bPhi = \bVh\bK\bPhi
}
\]
(4)を使って
\[
\leqalignno{
&\bS\bVh\bPhi = \bVh\bPhi\bN
}
\]
を得る。ここで、\(\bVh\bPhi = \bVt \)とおくと
\[
\leqalignno{
&\bS\bVt = \bVt \bN
}
\]
となる。これは対角行列 \(\bN\) の要素 \(\nu_i\)が \(\bS\) の固有値であることを示している。ここで\(\Jt\)は
\[
\leqalignno{
\Jt &= \Tr{\bVhT\bS\bVh}+\Tr{\bK(\bI-\bVhT\bVh)} \\
&= \Tr{\bK} = \underset{\comment{※ }(C.48)}{\sum_{i=1}^{D-M}} \nu_i
}
\]
であるが、これを最小にするには、\(\nu_i\) を \(\bS\) の小さい方の\(D-M\)個の固有値とすればよい。よって \(\Jt\) は、条件(4)が特解で与えられる場合でも、一般解で与えられる場合でも同じ値になる。