PRML演習14.17の解答

\[ \newcommand\l{\left} \newcommand\r{\right} \newcommand\cmt[1]{\class{Cmt}{\mbox{#1}}} \newcommand\b[1]{\class{Bold}{\mathrm{#1}}} \newcommand\bx{\b{x}} \newcommand\bw{\b{w}} \newcommand\bv{\b{v}} \newcommand\bu{\b{u}} \newcommand\T{\mathrm T} \]

2レベルの階層的混合

(ゲート関数が定数の場合)

\(\pi_i,\ \rho_i\) が定数のとき上図左側の混合分布は、 \[ \begin{align} p(t\mid\bx) = \sum_{k=1}^K\pi_k\psi_k(t\mid\bx) \tag{14.58} \end{align} \] で与えられる。ただし \[ \psi_k(t\mid\bx) = \sum_{l\ of\ ゲートk}\rho_l p_l(t\mid\bx) \] である。よって \[ \begin{align} p(t\mid\bx) &= \sum_{k=1}^K\pi_k\sum_{l\ of\ ゲートk}\rho_l p_l(t\mid\bx) \\ &=\sum_{k=1}^K\sum_{l\ of\ ゲートk}\pi_k\rho_l p_l(t\mid\bx) \\ &=\pi_1\rho_1 p_1(t\mid\bx)\pi_1\rho_2 p_2(t\mid\bx) + \cdots +\pi_K\rho_L p_L(t\mid\bx) \\ &=\sum_{l=1}^L\pi_{lの親k}\rho_l p_l(t\mid\bx) \\ &=\sum_{l=1}^L\sigma_l p_l(t\mid\bx)~~~ただし、\sigma_l=\pi_{lの親k}\rho_l \end{align} \] となる。これは1レベルの混合分布になっている(上図の右側)。

(ゲート関数が \(\bx\) の関数の場合)

ゲート関数が定数の場合と同様

(ゲート関数が線形分類モデルの場合)

2レベルの線形ロジスティックモデルのゲート関数を用いたHMEモデル

\(\pi_1,\ \pi_2\) は線形ロジスティックモデル、\(\rho_1,\ \rho_2\) も線形ロジスティックモデルとすると \[ \begin{align} \pi_1(\bx) &= \sigma(\bw^\T\bx) \\ \pi_2(\bx) &= 1-\pi_1(\bx) = 1- \sigma(\bw^\T\bx) \\ \rho_1(\bx) &= \sigma(\bv^\T\bx) \\ \rho_2(\bx) &= 1-\rho_1(\bx) = 1 - \sigma(\bv^\T\bx) \\ \end{align} \] である。混合分布は \[ \begin{align} p(t\mid\bx)&=\pi_1(\bx)\{\rho_1(\bx)p_1(t\mid\bx)+\rho_2(\bx)p_2(t\mid\bx)\}+\pi_2(\bx)p_3(t\mid\bx) \\ &=\pi_1(\bx)\rho_1(\bx)p_1(t\mid\bx)+\pi_1(\bx)\rho_2(\bx)p_2(t\mid\bx)+\pi_2(\bx)p_3(t\mid\bx) \\ &=\sigma(\bw^\T\bx)\sigma(\bv^\T\bx)p_1(t\mid\bx) +\sigma(\bw^\T\bx)\l\{1-\sigma(\bv^\T\bx)\r\}p_2(t\mid\bx) +\l\{1-\sigma(\bw^\T\bx)\r\}p_3(t\mid\bx) \tag{1} \\ \end{align} \] となる。
1レベルの線形ソフトマックスモデルのゲート関数を用いたHMEモデル

\(\tau_1(\bx),\tau_2(\bx),\tau_3(\bx)\) を線形ソフトマックスモデルとすると \[ \tau_k(\bx) = \frac{\exp\l(\bu_k^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \] である。混合分布は \[ \begin{align} p(t\mid\bx)&=\tau_1(\bx)p_1(t\mid\bx)+\tau_2(\bx)p_2(t\mid\bx)+\tau_3(\bx)p_3(t\mid\bx) \\ &=\frac{\exp\l(\bu_1^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_1(t\mid\bx) +\frac{\exp\l(\bu_2^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_2(t\mid\bx) +\frac{\exp\l(\bu_3^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_3(t\mid\bx) \tag{2} \end{align} \] となる。
上記2つのHMEモデルが等価であると仮定すると \((1) = (2)\) となる。
また \(p_1,\ p_2,\ p_3\) は独立で \(0\) でないので \[ \begin{align} \sigma\l(\bw^\T\bx\r)\sigma\l(\bv^\T\bx\r)&=\frac{\exp\l(\bu_1^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\ \sigma\l(\bw^\T\bx\r)\l\{1-\sigma\l(\bv^\T\bx\r)\r\}&=\frac{\exp\l(\bu_2^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\ \l\{1-\sigma\l(\bw^\T\bx\r)\r\}&=\frac{\exp\l(\bu_3^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\ \end{align} \] を得る。ここで \(\sigma\l(\bw^\T\bx\r)=W,\ \sigma\l(\bv^\T\bx\r)=V,\ \exp\l(\bu_j^\T\bx\r)=U_j\) と書くと上の連立方程式は \[ \begin{align} W\,V &= \frac{U_1}{U_1+U_2+U_3} \\ W(1-V) &= \frac{U_2}{U_1+U_2+U_3} \\ 1-W &= \frac{U_3}{U_1+U_2+U_3} \\ \end{align} \] となる。これより \[ \begin{align} (U_1+U_2+U_3)W\,V &= U_1 \\ (U_1+U_2+U_3)W(1-V) &=U_2 \\ (U_1+U_2+U_3)(1-W) &=U_3 \\ \end{align} \] よって \[ \l(\begin{array}{ccc} W\,V-1&W\,V&W\,V\\W(1-V)&W(1-V)-1&W(1-V)\\1-W&1-W&-W \end{array}\r) \l(\begin{array}{c}U_1\\U_2\\U_3\end{array}\r) = \b{0} \] となる。左辺の係数行列の行列式は \[ \begin{align} &\{W(1-V)-1\}(-W)-W(1-V)(1-W)-W(1-V)(-W)\\ &+W(1-V)(1-W)+W(1-V)(1-W)-\{W(1-V)-1\}(1-W)~~~(\because 余因子展開) \\ &=W+(1-W)=1\ne0 \end{align} \] なので係数行列は逆行列を持つ。この逆行列を左から掛けて \[ \pmatrix{U_1\\U_2\\U_3}=\pmatrix{0\\0\\0} \] を得る。これは \(U_1+U_2+U_3\ne 0\) と矛盾する。よって上記の2つのHMEモデルは等価ではない。よって
2レベルの線形ロジスティックモデルのゲート関数を用いたHMEモデルに等価な
1レベルの線形ソフトマックスモデルのゲート関数を用いたHMEモデルが必ず存在するとはいえない。

目次

PRML演習14.17の解答

2レベルの階層的混合

(ゲート関数が定数の場合)

(ゲート関数が \(\bx\) の関数の場合)

(ゲート関数が線形分類モデルの場合)