Skip to content

Latest commit

 

History

History
425 lines (385 loc) · 16.3 KB

ex_03_01-10.org

File metadata and controls

425 lines (385 loc) · 16.3 KB

PRML 第3章 演習 3.1-3.10

PRML 第3章 演習 3.1-3.10

3.1 [www] \(tanh\)とロジスティックシグモイド関数

\begin{align*} sinh(a) = & \f{e^a - e-a}{2}
cosh(a) = & \f{e^a + e-a}{2} \ tanh(a) = & \f{sinh(a)}{cosh(a)} \ = & \f{e^a - e-a}{e^a + e-a} \ = & \f{1 - e-2a}{1 + e-2a} \ = & \f{2 - (1 + e-2a)}{1 + e-2a} \ = & \f{2}{1 + e-2a} - 1 \ = & 2σ(2a) - 1 \tag{3.100} \end{align*}

\begin{align*} y(x,\u) = & u_0 + ∑j=1^M u_j tanh\l( \f{x - μ_j}{2s} \r) \tag{3.102}
= & u_0 + ∑j=1^M u_j \l\{ 2σ\l( 2 \f{x - μ_j}{2s} \r) - 1 \r\} \ = & (u_0 - ∑j=1^M u_j) + ∑j=1^M (2 u_j) σ\l( \f{x - μ_j}{s} \r) \ = & w_0 + ∑j=1^M w_j σ\l( \f{x - μ_j}{s} \r) = y(x,\w) \tag{3.101} \end{align*} ここで \begin{align*} w_0 = & u_0 - ∑j=1^M u_j \ w_j = & 2 u_j \end{align*}

3.2 最小二乗解の幾何学的解釈

行列\(\bPhi (\bPhi^T \bPhi)-1 \bPhi^T\)は 任意のベクトル\(\v\)を\(\bPhi\)の列ベクトルで張られる空間の上に正射影する。

[証明] ベクトル\(\v\)のある空間\(\S\)への正射影とは、以下の条件を満たすベクトル\(\v’\)である。

  1. ベクトル\(\v’\)は空間\(\S\)上にある。 すなわち、\(∃\w. \v’ = ∑_j \e_j w_j\)。 すなわち、\(∃\w. \v’ = \A \w\)、ただし\(\A = (\e_1,…,\e_M)\)。
  2. ベクトル\(\v-\v’\)が空間\(\S\)と直交する。 すなわち、\(\e_j (\v - \v’) = 0\)。 すなわち、\(\A^T (\v - \v’) = 0\)。

\(\v’ = \bPhi (\bPhi^T \bPhi)-1 \bPhi^T \v\)と置く。 \(\w = (\bPhi^T \bPhi)-1 \bPhi^T \v\)と置けば、条件1.は直ちに成り立つ。 以下のように、条件2.も成り立つ。 \begin{align*} \bPhi^T (\v - \v’) = & \bPhi^T (\v - \bPhi (\bPhi^T \bPhi)-1 \bPhi^T \v)
= & \bPhi^T (\I - \bPhi (\bPhi^T \bPhi)-1 \bPhi^T) \v \ = & (\bPhi^T - \bPhi^T \bPhi (\bPhi^T \bPhi)-1 \bPhi^T) \v \ = & (\bPhi^T - \bPhi^T) \v \ = & 0 \ \end{align*}

最小二乗解(3.15)は図3.2で示した多様体\(\S\)の上にベクトル\(\tt\)を正射影することに対応している。

[証明] ベクトル\(\yy\)は \begin{align*} \yy = & (y(\x_1,\w),…,y(\x_N,\w))
= & (\w^T \bphi(\x_1),…,\w^T \bphi(\x_N)) \ = & (\bphi(\x_1)^T \w,…,\bphi(\x_N)^T \w) \ = & (\bphi(\x_1),…,\bphi(\x_N))^T \w \ = & \bPhi \w \ \end{align*} \(\yy\)の最小二乗解は \begin{align*} \yy = & \bPhi \wML \ \end{align*} 重みベクトルの最小二乗解\(\wML\)は(3.15)により \begin{align*} \wML = (\bPhi^T \bPhi)-1 \bPhi^T \tt \ \end{align*} これを代入して \begin{align*} \yy = & \bPhi (\bPhi^T \bPhi)-1 \bPhi^T \tt \ \end{align*} 上で示した通り、\(\yy\)は\(\tt\)の\(\bPhi\)の列ベクトルが張る多様体\(\S\)への正射影である。

3.3 重み付き二乗和誤差関数

\begin{align*} E_D(\w) = & \f{1}{2} ∑n=1^N r_n \l\{ t_n - \w^\T \bphi(\x_n) \r\}^2
∇ E_D(\w) = & ∑n=1^N r_n \l\{ t_n - \w^\T \bphi(\x_n) \r\} \bphi(\x_n)^\T \ = & ∑n=1^N r_n t_n \bphi(\x_n)^\T

  • \w^\T ∑n=1^N r_n \bphi(\x_n) \bphi(\x_n)^\T

= & \tt^\T \R \bPhi - \w^\T \bPhi^\T \R \bPhi \end{align*} ここで\(\R\)は\(N\)行\(N\)列で対角成分が\(r_n\)の対角行列。

\(\w=\w^*\)のとき勾配が0になる。 \begin{align*} 0 = & \tt^\T \R \bPhi - {\w^*}^\T \bPhi^\T \R \bPhi
{\w^*}^\T \bPhi^\T \R \bPhi = & \tt^\T \R \bPhi \ {\w^*}^\T = & \tt^\T \R \bPhi (\bPhi^\T \R \bPhi)-1 \ \w^* = & (\bPhi^\T \R \bPhi)-1 \bPhi^\T \R \tt \ \end{align*}

(i) ノイズの分散がデータに依存する場合 重み\(r_n\)は、\(n\)番目のデータのノイズの分散の逆数。

(ii) データ点に重複がある場合 重み\(r_n\)は、\(t_n\),\(\x_n\)と等しい値を取るデータ点の数。

3.4 [www] 入力変数にノイズを加えることが正則化項を加えることと等価であることの証明

\begin{align*} y(\x,\w) = w_0 + ∑i=1^D w_i x_i \tag{3.105}
E_D(\w) = \f{1}{2} ∑n=1^N \{y(\x_n,\w) - t_n\}^2 \tag{3.106} \ \end{align*}

\(E_D(\w)\)のノイズ分布に関する平均 \begin{align*} & \E[E_D(\w)]
= & \f{1}{2} ∑n=1^N \E\l[ \{ y(\x_n + \ε_n,\w) - t_n \}^2 \r] \ = & \f{1}{2} ∑n=1^N \E\l[ \{ y(\x_n,\w) + ∑i=1^D w_i {ε_n}_i - t_n \}^2 \r] \ = & \f{1}{2} ∑n=1^N \E\l[ \l(∑i=1^D w_i {ε_n}_i\r)^2

  • 2 \{y(\x_n,\w) - t_n\} ∑i=1^D w_i {ε_n}_i
  • \{y(\x_n,\w) - t_n\}^2 \r]

= & \f{1}{2} ∑n=1^N \E\l[ ∑i=1^D ∑j=1^D w_i w_j {ε_n}_i {ε_n}_j

  • 2 \{y(\x_n,\w) - t_n\} ∑i=1^D w_i {ε_n}_i
  • \{y(\x_n,\w) - t_n\}^2 \r]

= & \f{1}{2} ∑n=1^N \l( ∑i=1^D ∑j=1^D w_i w_j \E[{ε_n}_i {ε_n}_j]

  • 2 \{y(\x_n,\w) - t_n\} ∑i=1^D w_i \E[{ε_n}_i]
  • \{y(\x_n,\w) - t_n\}^2 \r)

= & \f{1}{2} ∑n=1^N \l( ∑i=1^D ∑j=1^D w_i w_j δij σ^2

  • \{y(\x_n,\w) - t_n\}^2 \r)

= & \f{1}{2} ∑n=1^N \l( σ^2 ∑i=1^D w_i^2

  • \{y(\x_n,\w) - t_n\}^2 \r)

= & \f{1}{2} ∑n=1^N \{y(\x_n,\w) - t_n\}^2

  • \f{N σ^2}{2} ∑i=1^D w_i^2

\end{align*} 第2項は、正則化項\(\f{λ}{2} \w^\T \w\)で、 \(w_0\)を除き、\(λ = N σ^2\)としたものに等しい。

3.5 [www] (3.30)の制約条件を課すことが正則化項を加えることと等価であることの証明

正則化されていない二乗和誤差関数(3.12) \begin{align*} \f{1}{2} ∑n=1^N \{ t_n - \w^T \bphi(\x_n) \}^2 \end{align*} これを以下の制約条件(3.30)の下で最小化する。 \begin{align*} ∑j=1^M |w_j|^q \leq & η
\f{1}{2} ∑j=1^M |w_j|^q - η \leq & 0 \end{align*} ラグランジュ関数 \begin{align*} L(\w,λ) = & \f{1}{2} ∑n=1^N \{ t_n - \w^T \bphi(\x_n) \}^2 + λ g(w) \ g(\w) = & \f{1}{2} ∑j=1^M |w_j|^q - η \end{align*} 以下の制約の下での停留点を求めればよい。 \begin{align*} g(\w) \geq & 0 \ λ \geq & 0 \ λ g(\w) = & 0 \end{align*} 停留条件 \begin{align*} ∇ L(\w,λ) = & 0 \ ∇ \f{1}{2} ∑n=1^N \{ t_n - \w^T \bphi(\x_n) \}^2 + λ ∇ g(w) = & 0 \ ∑n=1^N \{ t_n - \w^T \bphi(\x_n) \} \bphi(\x_n)^T - λ q \wq-1 = & 0 \ \end{align*} これは、\(- λ = \f{λ}{2}\)とすると、上記の正則化された誤差関数の最小化と同じである。

もう一つの停留条件 \begin{align*} \p{}{λ} L(\w,λ) = & 0
g(\w) = & 0 \ η = & ∑j=1^M |w_j|^q \end{align*}

3.6 [www] 目的変数が多次元で任意の共分散を持つ線形回帰モデルの最尤推定

\begin{align*} p(\t|\x,\W,\Σ) = \N(\t|\y(\x,\W),\Σ) \tag{3.107}
\y(\x,\W) = \W^\T \bphi(\x) \tag{3.108} \ \end{align*}

尤度関数 \begin{align*} p(\TT|\X,\W,\Σ) = & ∏n=1^N p(\t_n|\x_n,\W,\Σ)
= & ∏n=1^N \N(\t_n|\W^\T \bphi(\x_n),\Σ) \ = & \f{1}{(2π)NK/2} \f{1}{|\Σ|N/2} ∏n=1^N exp\l\{ - \f{1}{2} \l(\t_n - \W^\T \bphi(\x_n)\r)^\T \Σ-1 \l(\t_n - \W^\T \bphi(\x_n)\r) \r\} \ \end{align*}

対数尤度関数 \begin{align*} ln p(\TT|\X,\W,\Σ) = & - \f{NK}{2} ln (2π) - \f{N}{2} ln |\Σ|

  • \f{1}{2} ∑n=1^N

\l(\t_n - \W^\T \bphi(\x_n)\r)^\T \Σ-1 \l(\t_n - \W^\T \bphi(\x_n)\r)
\end{align*}

\(\W\)の最尤推定

\begin{align*} \p{}{Wij} ln p(\TT|\X,\W,\Σ) = & - \f{1}{2} \p{}{Wij} \Tr\l[(\TT - \bPhi \W) \Σ-1(\TT - \bPhi \W)^\T\r]
= & - \f{1}{2} \Tr\l[ \l\{\p{}{Wij} (\TT - \bPhi \W)\r\} \Σ-1 (\TT - \bPhi \W)^\T

  • (\TT - \bPhi \W) \Σ-1 \l\{\p{}{Wij} (\TT - \bPhi \W)^\T\r\} \r]

= & - \Tr\l[ \l\{\p{}{Wij} (\TT - \bPhi \W)\r\} \Σ-1 (\TT - \bPhi \W)^\T \r]
= & \Tr\l[ \bPhi \p{\W}{Wij} \Σ-1 (\TT - \bPhi \W)^\T \r] \ = & \Tr\l[ \p{\W}{Wij} \Σ-1 (\TT - \bPhi \W)^\T \bPhi \r] \ = & (\Σ-1 (\TT - \bPhi \W)^\T \bPhi)ij \

\p{}{\W} ln p(\TT|\X,\W,\Σ) = & \Σ-1 (\TT - \bPhi \W)^\T \bPhi
\end{align*}

\begin{align*} 0 = & \Σ_\ML-1 (\TT - \bPhi \W_\ML)^\T \bPhi
0 = & (\TT - \bPhi \W_\ML)^\T \bPhi \ 0 = & \bPhi^\T (\TT - \bPhi \W_\ML) \ 0 = & \bPhi^\T \TT - \bPhi^\T \bPhi \W_\ML \ \W_\ML = & (\bPhi^\T \bPhi)-1 \bPhi^\T \TT \ \end{align*}

\(\Σ\)の最尤推定

参考: p.91 (2.122)、p.131 2.34。 \begin{align*} \p{}{\Σ} ln p(\TT|\X,\W,\Σ) = & - \f{N}{2} \p{}{\Σ} ln |\Σ|

  • \f{1}{2} \p{}{\Σ} ∑n=1^N \l(\t_n - \W^\T \bphi(\x_n)\r)^\T \Σ-1 \l(\t_n - \W^\T \bphi(\x_n)\r)

\end{align*} 第1項 \begin{align*} \p{}{\Σ} ln |\Σ| = (\Σ-1)^\T = \Σ-1 \end{align*} 第2項 \begin{align*} \S = \f{1}{N} ∑n=1^N \l(\t_n - \W^\T \bphi(\x_n)\r) \l(\t_n - \W^\T \bphi(\x_n)\r)^\T \end{align*} と置く。 \begin{align*} & \p{}{Σij} ∑n=1^N \l(\t_n - \W^\T \bphi(\x_n)\r)^\T \Σ-1 \l(\t_n - \W^\T \bphi(\x_n)\r)
= & N \p{}{Σij} \Tr[\Σ-1 \S] \ = & N \Tr\l[\p{\Σ-1}{Σij} \S\r] \ = & - N \Tr\l[\Σ-1 \p{\Σ}{Σij} \Σ-1 \S\r] \ = & - N \Tr\l[\p{\Σ}{Σij} \Σ-1 \S \Σ-1\r] \ = & - N (\Σ-1 \S \Σ-1)ij \ \end{align*} よって \begin{align*} \p{}{\Σ} ln p(\TT|\X,\W,\Σ) = & - \f{N}{2} \Σ-1 + \f{N}{2} \Σ-1 \S \Σ-1 \end{align*}

\begin{align*} 0 = & - \f{N}{2} \Σ_\ML-1 + \f{N}{2} \Σ_\ML-1 \S_\ML \Σ_\ML-1
\Σ_\ML = & \S_\ML \ = & \f{1}{N} ∑n=1^N \l(\t_n - \W_\ML^\T \bphi(\x_n)\r) \l(\t_n - \W_\ML^\T \bphi(\x_n)\r)^\T \ \end{align*}

3.7 線形基底関数モデルの事後確率

事前分布 \begin{align*} p(\w) = \N(\w|\m_0,\S_0) \tag{3.48} \end{align*}

尤度関数 \begin{align*} p(\tt|\X,\w,β) = ∏n=1^N \N(t_n|\w^\T \bphi(\x_n),β-1) \tag{3.10} \end{align*}

事後分布 \begin{align*} p(\w|\tt) ∝ & \N(\w|\m_0,\S_0) ∏n=1^N \N(t_n|\w^\T \bphi(\x_n),β-1)
∝ & exp\l[ -\f{1}{2} (\w - \m_0)^\T \S_0-1 (\w - \m_0) \r] ∏n=1^N exp\l[ -\f{β}{2} \{t_n - \w^\T \bphi(\x_n)\}^2 \r] \ = & exp\l[ - \f{1}{2} (\w - \m_0)^\T \S_0-1 (\w - \m_0)

  • \f{β}{2} ∑n=1^N \{t_n - \w^\T \bphi(\x_n)\}^2 \r]

\end{align*}

指数部分の\(\w\)の2次の項 \begin{align*} = & - \f{1}{2} \w^\T \S_0-1 \w

  • \f{β}{2} ∑n=1^N \{\w^\T \bphi(\x_n)\}^2

= & - \f{1}{2} \w^\T \S_0-1 \w - \f{β}{2} \w^\T \bPhi^\T \bPhi \w
= & - \f{1}{2} \w^\T (\S_0-1 - β \bPhi^\T \bPhi) \w \ \end{align*}

指数部分の\(\w\)の1次の項 \begin{align*} & \w^\T \S_0-1 \m_0 + β \w^\T ∑n=1^N t_n \bphi(\x_n)
= & \w^\T \S_0-1 \m_0 + β \w^\T \bPhi^\T \tt \ = & \w^\T (\S_0-1 \m_0 + β \bPhi^\T \tt) \ \end{align*}

よって \begin{align*} p(\w|\tt) ∝ & exp\l\{ - \f{1}{2} \w^\T (\S_0-1 - β \bPhi^\T \bPhi) \w

  • \w^\T (\S_0-1 \m_0 + β \bPhi^\T \tt) + const. \r\}

= & exp\l\{ - \f{1}{2} (\w - \m_N)^\T \S_N-1 (\w - \m_N) + const. \r\}
p(\w|\tt) = & \N(\w|\m_N,\S_N) \ \end{align*} ただし \begin{align*} \m_N = & \S_N (\S_0-1 \m_0 + β \bPhi^\T \tt) \ \S_N-1 = & \S_0-1 - β \bPhi^\T \bPhi \end{align*}

3.8 [www] 線形基底関数モデルの事後確率のパラメータの漸化式

N個のデータ点を観測した後の\(\w\)の事後確率 \begin{align*} p(\w|\tt_N) = \N(\w|\m_N,\S_N) \tag{3.49} \end{align*}

追加のデータ点\((\xN+1,tN+1)\)を観測したときの尤度 \begin{align*} p(tN+1|\xN+1,\w,β) = \N(tN+1|\w^\T \bphi(\xN+1-1) \end{align*}

追加のデータ点を観測した後の\(\w\)の事後確率 \begin{align*} p(\w|\ttN+1) ∝ & p(tN+1|\xN+1,\w,β) p(\w|\tt_N)
= & \N(tN+1|\w^\T \bphi(\xN+1-1) \N(\w|\m_N,\S_N) \ ∝ & exp\l[ - \f{β}{2} \{tN+1 - \w^\T \bphi(\xN+1)\}

  • \f{1}{2} (\w - \m_N)^\T \S_N-1 (\w - \m_N) \r]

\end{align*}

指数部分の\(\w\)の2次の項 \begin{align*} & - \f{β}{2} \{\w^\T \bphi(\xN+1)\}^2 - \f{1}{2} \w^\T \S_N-1 \w
= & - \f{β}{2} \w^\T \bphi(\xN+1)^\T \bphi(\xN+1) \w

  • \f{1}{2} \w^\T (\S_0-1 + β Φ_N^\T Φ_N) \w

= & - \f{1}{2} \w^\T \l[ \S_0-1

  • β \l\{ \bphi(\xN+1)^\T \bphi(\xN+1) + Φ_N^\T Φ_N \r\} \r] \w

= & - \f{1}{2} \w^\T \l[ \S_0-1 - β ΦN+1^\T ΦN+1 \r] \w
= & - \f{1}{2} \w^\T \SN+1-1 \w \ \end{align*}

指数部分の\(\w\)の1次の項 \begin{align*} & β tN+1 \w^\T \bphi(\xN+1) + \w^\T \S_N-1 \m_N
= & \w^\T \{ β tN+1 \bphi(\xN+1) + \S_N-1 \m_N \} \ = & \w^\T \{ β tN+1 \bphi(\xN+1) + \S_0-1 \m_0 + β Φ_N^\T \tt_N \} \ = & \w^\T [ \S_0-1 \m_0 + β \{ tN+1 \bphi(\xN+1) + Φ_N^\T \tt_N \} ] \ = & \w^\T ( \S_0-1 \m_0 + β ΦN+1^\T \ttN+1 ) \ = & \w^\T \SN+1-1 \mN+1 \ \end{align*}

よって \begin{align*} p(\w|\ttN+1) = \N(\w|\mN+1,\SN+1) \end{align*}

3.9 線形基底関数モデルの事後確率をガウス分布の周辺分布の公式を用いて評価する

\begin{align*} p(\x) = & \N(\x|\μ,\Λ-1)
p(\y|\x) = & \N(\y|\A \x + \b,\L-1) \ \end{align*} ならば \begin{align*} p(\x|\y) = & \N(\x|\Σ \{\A^\T \L (\y + \b) + \Λ \μ\},\Σ) \ \Σ = & (\Λ + \A^\T \L \A)-1 \ \end{align*} これを \begin{align*} p(\w|\tt_N) = & \N(\w|\m_N,\S_N) \tag{3.49} \ p(tN+1|\xN+1,\w,β) = & \N(tN+1|\w^\T \bphi(\xN+1),β-1) \end{align*} に適用すると \begin{align*} \μ = & \m_N & \Λ-1 = & \S_N \ \A = & \bphi(\xN+1)^T & \b = & 0 & \L-1 = & β-1 \end{align*}

事後分布の共分散 \begin{align*} \Σ = & (\Λ + \A^\T \L \A)-1
= & (\S_N-1 + β \bphi(\xN+1) \bphi(\xN+1)^\T)-1 \ = & (\S_0-1 - β \bPhi_N^\T \bPhi_N + β \bphi(\xN+1)^\T \bphi(\xN+1))-1 \ = & (\S_0-1 - β \bPhiN+1^\T \bPhiN+1)-1 \ = & \SN+1 \end{align*}

事後分布の平均 \begin{align*} & \Σ \{\A^\T \L (\y + \b) + \Λ \μ\}
= & \SN+1 \{β \bphi(\xN+1) tN+1 + \S_N-1 \m_N\} \ = & \SN+1 \{β \bphi(\xN+1) tN+1 + (\S_0-1 \m_0 + β \bPhi_N^\T \tt_N)\} \ = & \SN+1 \{\S_0-1 \m_0 + β \bPhiN+1^\T \ttN+1\} \ = & \mN+1 \end{align*}

事後分布 \begin{align*} p(\w|\ttN+1) = \N(\w|\mN+1,\SN+1) \end{align*}

3.10 [www] ガウス分布の周辺分布の公式を用いてベイズ線形回帰の予測分布を評価する

\begin{align*} p(\x) = & \N(\x|\μ,\Λ-1) \tag{2.113}
p(\y|\x) = & \N(\y|\A \x + \b, \L-1) \tag{2.114} \ \end{align*} ならば \begin{align*} p(\y) = & \N(\y|\A \μ + \b, \L-1 + \A \Λ-1 \A^\T) \tag{2.115} \ \end{align*} これを \begin{align*} p(\w) = & \N(\w|\m_N,\S_N) \tag{3.49} \ p(t|\w) = & \N(t|\w^\T \bphi(\x), β-1) \tag{3.8} \ \end{align*} に適用すると \begin{align*} \μ = & \m_N \ \Λ-1 = & \S_N \ \A = & \bphi(\x)^T \ \b = & 0 \ \L-1 = & β-1 \end{align*}

予測分布 \begin{align*} p(t) = \N(t|\bphi(\x)^T \m_N, β-1 + \bphi(\x)^T \S_N \bphi(\x)) \end{align*}