prml演習14.17の解答
文書の過去の版を表示しています。
PRML演習14.17の解答
\[
\newcommand\l{\left}
\newcommand\r{\right}
\newcommand\cmt[1]{\class{Cmt}{\mbox{#1}}}
\newcommand\b[1]{\class{Bold}{\mathrm{#1}}}
\newcommand\bx{\b{x}}
\newcommand\bw{\b{w}}
\newcommand\bv{\b{v}}
\newcommand\bu{\b{u}}
\newcommand\T{\mathrm T}
\]
2レベルの階層的混合
(ゲート関数が定数の場合)
\(\pi_i,\ \rho_i\) が定数のとき上図左側の混合分布は、
\[
\begin{align}
p(t\mid\bx) = \sum_{k=1}^K\pi_k\psi_k(t\mid\bx) \tag{14.58}
\end{align}
\]
で与えられる。ただし
\[
\psi_k(t\mid\bx) = \sum_{l\ of\ ゲートk}\rho_l p_l(t\mid\bx)
\]
である。よって
\[
\begin{align}
p(t\mid\bx) &= \sum_{k=1}^K\pi_k\sum_{l\ of\ ゲートk}\rho_l p_l(t\mid\bx) \\
&=\sum_{k=1}^K\sum_{l\ of\ ゲートk}\pi_k\rho_l p_l(t\mid\bx) \\
&=\pi_1\rho_1 p_1(t\mid\bx)\pi_1\rho_2 p_2(t\mid\bx) + \cdots +\pi_K\rho_L p_L(t\mid\bx) \\
&=\sum_{l=1}^L\pi_{lの親k}\rho_l p_l(t\mid\bx) \\
&=\sum_{l=1}^L\sigma_l p_l(t\mid\bx)~~~ただし、\sigma_l=\pi_{lの親k}\rho_l
\end{align}
\]
となる。これは1レベルの混合分布になっている(上図の右側)。
(ゲート関数が \(\bx\) の関数の場合)
ゲート関数が定数の場合と同様
(ゲート関数が線形分類モデルの場合)
2レベルの線形ロジスティックモデルのゲート関数を用いたHMEモデル
\(\pi_1,\ \pi_2\) は線形ロジスティックモデル、\(\rho_1,\ \rho_2\) も線形ロジスティックモデルとすると
\[
\begin{align}
\pi_1(\bx) &= \sigma(\bw^\T\bx) \\
\pi_2(\bx) &= 1-\pi_1(\bx) = 1- \sigma(\bw^\T\bx) \\
\rho_1(\bx) &= \sigma(\bv^\T\bx) \\
\rho_2(\bx) &= 1-\rho_1(\bx) = 1 - \sigma(\bv^\T\bx) \\
\end{align}
\]
である。混合分布は
\[
\begin{align}
p(t\mid\bx)&=\pi_1(\bx)\{\rho_1(\bx)p_1(t\mid\bx)+\rho_2(\bx)p_2(t\mid\bx)\}+\pi_2(\bx)p_3(t\mid\bx) \\
&=\pi_1(\bx)\rho_1(\bx)p_1(t\mid\bx)+\pi_1(\bx)\rho_2(\bx)p_2(t\mid\bx)+\pi_2(\bx)p_3(t\mid\bx) \\
&=\sigma(\bw^\T\bx)\sigma(\bv^\T\bx)p_1(t\mid\bx)
+\sigma(\bw^\T\bx)\l\{1-\sigma(\bv^\T\bx)\r\}p_2(t\mid\bx)
+\l\{1-\sigma(\bw^\T\bx)\r\}p_3(t\mid\bx) \tag{1} \\
\end{align}
\]
となる。
1レベルの線形ソフトマックスモデルのゲート関数を用いたHMEモデル \(\tau_1(\bx),\tau_2(\bx),\tau_3(\bx)\) を線形ソフトマックスモデルとすると \[ \tau_k(\bx) = \frac{\exp\l(\bu_k^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \] である。混合分布は \[ \begin{align} p(t\mid\bx)&=\tau_1(\bx)p_1(t\mid\bx)+\tau_2(\bx)p_2(t\mid\bx)+\tau_3(\bx)p_3(t\mid\bx) \\ &=\frac{\exp\l(\bu_1^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_1(t\mid\bx) +\frac{\exp\l(\bu_2^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_2(t\mid\bx) +\frac{\exp\l(\bu_3^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_3(t\mid\bx) \tag{2} \end{align} \] となる。
上記2つのHMEモデルが等価であると仮定すると \((1) = (2)\) となる。
また \(p_1,\ p_2,\ p_3\) は独立で \(0\) でないので \[ \begin{align} \sigma\l(\bw^\T\bx\r)\sigma\l(\bv^\T\bx\r)&=\frac{\exp\l(\bu_1^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\ \sigma\l(\bw^\T\bx\r)\l\{1-\sigma\l(\bv^\T\bx\r)\r\}&=\frac{\exp\l(\bu_2^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\ \l\{1-\sigma\l(\bw^\T\bx\r)\r\}&=\frac{\exp\l(\bu_3^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\ \end{align} \] を得る。ここで \(\sigma\l(\bw^\T\bx\r)=W,\ \sigma\l(\bv^\T\bx\r)=V,\ \exp\l(\bu_j^\T\bx\r)=U_j\) と書くと上の連立方程式は \[ \begin{align} W\,V &= \frac{U_1}{U_1+U_2+U_3} \\ W(1-V) &= \frac{U_2}{U_1+U_2+U_3} \\ 1-W &= \frac{U_3}{U_1+U_2+U_3} \\ \end{align} \] となる。これより \[ \begin{align} (U_1+U_2+U_3)W\,V &= U_1 \\ (U_1+U_2+U_3)W(1-V) &=U_2 \\ (U_1+U_2+U_3)(1-W) &=U_3 \\ \end{align} \] よって \[ \l(\begin{array}{ccc} W\,V-1&W\,V&W\,V\\W(1-V)&W(1-V)-1&W(1-V)\\1-W&1-W&-W \end{array}\r) \l(\begin{array}{c}U_1\\U_2\\U_3\end{array}\r) = \b{0} \] となる。左辺の係数行列の行列式は \[ \begin{align} &\{W(1-V)-1\}(-W)-W(1-V)(1-W)-W(1-V)(-W)\\ &+W(1-V)(1-W)+W(1-V)(1-W)-\{W(1-V)-1\}(1-W)~~~(\because 余因子展開) \\ &=W+(1-W)=1\ne0 \end{align} \] なので係数行列は逆行列を持つ。この逆行列を左から掛けて \[ \pmatrix{U_1\\U_2\\U_3}=\pmatrix{0\\0\\0} \] を得る。これは \(U_1+U_2+U_3\ne 0\) と矛盾する。よって上記の2つのHMEモデルは等価ではない。よって
2レベルの線形ロジスティックモデルのゲート関数を用いたHMEモデルに等価な
1レベルの線形ソフトマックスモデルのゲート関数を用いたHMEモデルが必ず存在するとはいえない。
1レベルの線形ソフトマックスモデルのゲート関数を用いたHMEモデル \(\tau_1(\bx),\tau_2(\bx),\tau_3(\bx)\) を線形ソフトマックスモデルとすると \[ \tau_k(\bx) = \frac{\exp\l(\bu_k^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \] である。混合分布は \[ \begin{align} p(t\mid\bx)&=\tau_1(\bx)p_1(t\mid\bx)+\tau_2(\bx)p_2(t\mid\bx)+\tau_3(\bx)p_3(t\mid\bx) \\ &=\frac{\exp\l(\bu_1^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_1(t\mid\bx) +\frac{\exp\l(\bu_2^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_2(t\mid\bx) +\frac{\exp\l(\bu_3^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_3(t\mid\bx) \tag{2} \end{align} \] となる。
上記2つのHMEモデルが等価であると仮定すると \((1) = (2)\) となる。
また \(p_1,\ p_2,\ p_3\) は独立で \(0\) でないので \[ \begin{align} \sigma\l(\bw^\T\bx\r)\sigma\l(\bv^\T\bx\r)&=\frac{\exp\l(\bu_1^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\ \sigma\l(\bw^\T\bx\r)\l\{1-\sigma\l(\bv^\T\bx\r)\r\}&=\frac{\exp\l(\bu_2^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\ \l\{1-\sigma\l(\bw^\T\bx\r)\r\}&=\frac{\exp\l(\bu_3^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\ \end{align} \] を得る。ここで \(\sigma\l(\bw^\T\bx\r)=W,\ \sigma\l(\bv^\T\bx\r)=V,\ \exp\l(\bu_j^\T\bx\r)=U_j\) と書くと上の連立方程式は \[ \begin{align} W\,V &= \frac{U_1}{U_1+U_2+U_3} \\ W(1-V) &= \frac{U_2}{U_1+U_2+U_3} \\ 1-W &= \frac{U_3}{U_1+U_2+U_3} \\ \end{align} \] となる。これより \[ \begin{align} (U_1+U_2+U_3)W\,V &= U_1 \\ (U_1+U_2+U_3)W(1-V) &=U_2 \\ (U_1+U_2+U_3)(1-W) &=U_3 \\ \end{align} \] よって \[ \l(\begin{array}{ccc} W\,V-1&W\,V&W\,V\\W(1-V)&W(1-V)-1&W(1-V)\\1-W&1-W&-W \end{array}\r) \l(\begin{array}{c}U_1\\U_2\\U_3\end{array}\r) = \b{0} \] となる。左辺の係数行列の行列式は \[ \begin{align} &\{W(1-V)-1\}(-W)-W(1-V)(1-W)-W(1-V)(-W)\\ &+W(1-V)(1-W)+W(1-V)(1-W)-\{W(1-V)-1\}(1-W)~~~(\because 余因子展開) \\ &=W+(1-W)=1\ne0 \end{align} \] なので係数行列は逆行列を持つ。この逆行列を左から掛けて \[ \pmatrix{U_1\\U_2\\U_3}=\pmatrix{0\\0\\0} \] を得る。これは \(U_1+U_2+U_3\ne 0\) と矛盾する。よって上記の2つのHMEモデルは等価ではない。よって
2レベルの線形ロジスティックモデルのゲート関数を用いたHMEモデルに等価な
1レベルの線形ソフトマックスモデルのゲート関数を用いたHMEモデルが必ず存在するとはいえない。
prml演習14.17の解答.1733901384.txt.gz · 最終更新: 2024/12/11 16:16 by masahito
