2レベルの線形ロジスティックモデルのゲート関数を用いたHMEモデル
\(\pi_1,\ \pi_2\) は線形ロジスティックモデル、\(\rho_1,\ \rho_2\) も線形ロジスティックモデルとすると
\[
\begin{align}
\pi_1(\bx) &= \sigma(\bw^\T\bx) \\
\pi_2(\bx) &= 1-\pi_1(\bx) = 1- \sigma(\bw^\T\bx) \\
\rho_1(\bx) &= \sigma(\bv^\T\bx) \\
\rho_2(\bx) &= 1-\rho_1(\bx) = 1 - \sigma(\bv^\T\bx) \\
\end{align}
\]
である。混合分布は
\[
\begin{align}
p(t\mid\bx)&=\pi_1(\bx)\{\rho_1(\bx)p_1(t\mid\bx)+\rho_2(\bx)p_2(t\mid\bx)\}+\pi_2(\bx)p_3(t\mid\bx) \\
&=\pi_1(\bx)\rho_1(\bx)p_1(t\mid\bx)+\pi_1(\bx)\rho_2(\bx)p_2(t\mid\bx)+\pi_2(\bx)p_3(t\mid\bx) \\
&=\sigma(\bw^\T\bx)\sigma(\bv^\T\bx)p_1(t\mid\bx)
+\sigma(\bw^\T\bx)\l\{1-\sigma(\bv^\T\bx)\r\}p_2(t\mid\bx)
+\l\{1-\sigma(\bw^\T\bx)\r\}p_3(t\mid\bx) \tag{1} \\
\end{align}
\]
となる。
1レベルの線形ソフトマックスモデルのゲート関数を用いたHMEモデル
\(\tau_1(\bx),\tau_2(\bx),\tau_3(\bx)\) を線形ソフトマックスモデルとすると
\[
\tau_k(\bx) = \frac{\exp\l(\bu_k^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}
\]
である。混合分布は
\[
\begin{align}
p(t\mid\bx)&=\tau_1(\bx)p_1(t\mid\bx)+\tau_2(\bx)p_2(t\mid\bx)+\tau_3(\bx)p_3(t\mid\bx) \\
&=\frac{\exp\l(\bu_1^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_1(t\mid\bx)
+\frac{\exp\l(\bu_2^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_2(t\mid\bx)
+\frac{\exp\l(\bu_3^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)}p_3(t\mid\bx) \tag{2}
\end{align}
\]
となる。
上記2つのHMEモデルが等価であると仮定すると \((1) = (2)\) となる。
また \(p_1,\ p_2,\ p_3\) は独立で \(0\) でないので
\[
\begin{align}
\sigma\l(\bw^\T\bx\r)\sigma\l(\bv^\T\bx\r)&=\frac{\exp\l(\bu_1^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\
\sigma\l(\bw^\T\bx\r)\l\{1-\sigma\l(\bv^\T\bx\r)\r\}&=\frac{\exp\l(\bu_2^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\
\l\{1-\sigma\l(\bw^\T\bx\r)\r\}&=\frac{\exp\l(\bu_3^\T\bx\r)}{\sum_j\exp\l(\bu_j^\T\bx\r)} \\
\end{align}
\]
を得る。ここで \(\sigma\l(\bw^\T\bx\r)=W,\ \sigma\l(\bv^\T\bx\r)=V,\ \exp\l(\bu_j^\T\bx\r)=U_j\) と書くと上の連立方程式は
\[
\begin{align}
W\,V &= \frac{U_1}{U_1+U_2+U_3} \\
W(1-V) &= \frac{U_2}{U_1+U_2+U_3} \\
1-W &= \frac{U_3}{U_1+U_2+U_3} \\
\end{align}
\]
となる。これより
\[
\begin{align}
(U_1+U_2+U_3)W\,V &= U_1 \\
(U_1+U_2+U_3)W(1-V) &=U_2 \\
(U_1+U_2+U_3)(1-W) &=U_3 \\
\end{align}
\]
よって
\[
\l(\begin{array}{ccc}
W\,V-1&W\,V&W\,V\\W(1-V)&W(1-V)-1&W(1-V)\\1-W&1-W&-W
\end{array}\r)
\l(\begin{array}{c}U_1\\U_2\\U_3\end{array}\r) = \b{0}
\]
となる。左辺の係数行列の行列式は
\[
\begin{align}
&\{W(1-V)-1\}(-W)-W(1-V)(1-W)-W(1-V)(-W)\\
&+W(1-V)(1-W)+W(1-V)(1-W)-\{W(1-V)-1\}(1-W)~~~(\because 余因子展開) \\
&=W+(1-W)=1\ne0
\end{align}
\]
なので係数行列は逆行列を持つ。この逆行列を左から掛けて
\[
\pmatrix{U_1\\U_2\\U_3}=\pmatrix{0\\0\\0}
\]
を得る。これは \(U_1+U_2+U_3\ne 0\) と矛盾する。よって上記の2つのHMEモデルは等価ではない。よって
2レベルの線形ロジスティックモデルのゲート関数を用いたHMEモデルに等価な
1レベルの線形ソフトマックスモデルのゲート関数を用いたHMEモデルが必ず存在するとはいえない。