\[
\newcommand\c[1]{\color{red}{{\Tiny\mbox{#1}}}}
\newcommand\cc[1]{\color{red}{\mbox{#1}}}
\newcommand\cause[1]{{\Tiny (\because #1)}}
\newcommand\l{\left}
\newcommand\r{\right}
\newcommand\pdiff[2]{\frac{\partial #1}{\partial #2}}
\newcommand\b[1]{\pmb{\mathrm{#1}}}
\newcommand\bt{\b{t}}
\newcommand\bx{\b{x}}
\newcommand\bT{\b{T}}
\newcommand\bX{\b{X}}
\newcommand\bz{\b{z}}
\newcommand\btheta{\b{\theta}}
\newcommand\bTheta{\b{\Theta}}
\newcommand\independent{\style{transform:rotate(-90deg);}{\models}}
\]
問題文でモデル変数が \(h\) と \(\bz_h\) の2つ与えられている。
特に \(\bz_h\) はモデル変数 \(h\) に属する変数でさらに \(\bz_h\) 自身もモデル変数として機能する。
これはちょっと複雑すぎて何がなんやらわからない。なので \(\bz_h\) は除いて、モデル変数 \(h\) のみ考えることとする。
(モデル結合の場合)
モデル結合において、モデル変数は \((\bt_n,\;\bx_n),\ (\bt,\;\bx)\) 毎に存在する。ということに注意して、他の変数のリンクは適当に仮定してモデル図を考える。
\(\bTheta=\{\btheta_h\},\;\bX=\{\bx_n\},\;\bT=\{\bt_n\}\) とすると
\[
\leqalignno{
p(\bt | \bx,\bX,\bT)
&= \int p(\bt,\bTheta | \bx, \bX, \bT)\,d\bTheta~~~\cause{加法定理} \\
&= \int p(\bt | \bTheta, \bx, \bX, \bT)p(\bTheta | \bx, \bX, \bT)\,d\bTheta~~~\cause{乗法定理} \\
&= \int \underset{\c{※1}}{p(\bt | \bTheta, \bx)}\underset{\c{※2}}{p(\bTheta | \bX, \bT)}\,d\bTheta
}
\]
ここで
\[
\leqalignno{
p(\bt | \bTheta,\bx)
&= \frac{p(\bTheta,\bX,\bT)}{p(\bX,\bT)} \\
&\propto p(\bTheta, \bX, \bT)~~~\cause{ \bX,\bTは訓練データに固定なのでp(\bX,\bT)は定数} \\
&= p(\bX, \bT)p(\bTheta)~~~\cause{ 乗法定理} \\
&= \prod_{n=1}^N p(\bx_n,\bt_n | \bTheta)p(\bTheta)~~~\cause{ (\bx_n,\bt_n)は独立と仮定} \\
&= \prod_{n=1}^N \sum_{h_n=1}^H p(\bx_n,\bt_n, h_n | \bTheta)p(\bTheta)~~~\cause{加法定理} \\
&= \prod_{n=1}^N \sum_{h_n=1}^H p(\bx_n,\bt_n | h_n,\bTheta)p(h_h|\bTheta)p(\bTheta) ~~~\cause{ 乗法定理} \\
&= \prod_{n=1}^N \sum_{h_n=1}^H p(\bx_n,\bt_n | h_n,\bTheta)p(h_h)p(\bTheta)~~~\cause{ h_n \independent \bTheta | \emptyset} \\
}
\]
よって
\[
\leqalignno{
p(\bt | \bx,\bX,\bT)
\propto \int \l\{\sum_{h=1}^H p(\bt|h,\bTheta,\bx)p(h)\r\}
\l\{\prod_{n=1}^N \sum_{h_n=1}^H p(\bx_n,\bt_n|h_n,\bTheta)p(h_n)p(\bTheta)\r\}\,d\bTheta
}
\]
となる。各々の \( (\bt_n, \bx_n),\ (\bt, \bx) \) 毎に別々のモデル変数 \(h_n, h\) が存在しているのが確認できる。
(ベイズモデル平均の場合)
ベイズモデル平均においてモデル変数は全ての \((\bt_n,\bx_n),\ (\bt,\bx)\) に共通に存在する。ということに注意して、他の変数のリンクは適当に仮定してモデル図を考える。
\(\bTheta=\{\btheta_h\},\;\bX=\{\bx_n\},\;\bT=\{\bt_n\}\) とすると
\[
\leqalignno{
p(\bt | \bx,\bX,\bT)
&= \sum_{h=1}^H \int p(\bt,\bTheta,h | \bx, \bX, \bT)\,d\bTheta \\
&= \sum_{h=1}^H \int p(\bt | \bTheta,h,\bx,\bX,\bT)p(\bTheta,h | \bx,\bX,\bT)\,d\bTheta \\
&= \sum_{h=1}^H \int \underset{\c{※4}}{p(\bt | \bTheta,h,\bx)}\underset{\c{※5}}{p(\bTheta ,h| \bX, \bT)}\,d\bTheta
}
\]
ここで
\[
\leqalignno{
p(\bTheta,h | \bX,\bT)
&= \frac{p(\bTheta,h,\bX,\bT)}{p(\bX,\bT)} \\
&\propto p(\bX,\bT | \bTheta,h)p(\bTheta,h)~~~\cause{ \bX,\bTは訓練データに固定なのでp(\bX,\bT)は定数} \\
&= p(\bX,\bT | \bTheta,h)p(\bTheta)p(h)~~~\cause{\bTheta \independent h | \emptyset} \\
&= \prod_{n=1}^N p(\bx_n,\bt_n | \bTheta,h)p(\bTheta)p(h)~~~\cause{ (\bx_n,\bt_n)は独立と仮定} \\
}
\]
よって
\[
\leqalignno{
p(\bt | \bx,\bX,\bT)
\propto \sum_{h=1}^H \int p(\bt | \bTheta,h,\bx) \prod_{n=1}^N p(\bx_n,\bt_n|\bTheta,h)p(\bTheta)p(h)\,d\bTheta
}
\]
となる。すべての \( (\bt_n, \bx_n),\ (\bt, \bx) \) に共通の1つのモデル変数 \(h\) が存在しているのが確認できる。
(webの解答について)
webの解答ではおそらくベイズモデル平均とモデル結合を混合したモデル図を考えていると思われる。こんな感じ
\(h\) はベイズモデル平均のためのモデル変数で、 \(\bz_h, \bz_{hn}\) はモデル結合のためのモデル変数である。