多項式
\begin{align*}
\newcommand{\w}{{\bf w}}
y(x,\w) = ∑j=0^M w_j x^j
\end{align*}
二乗和誤差
\begin{align*}
E(\w) = \frac{1}{2} ∑n=1^N \{y(x_n,\w) - t_n\}^2
\end{align*}
\begin{align*}
\frac{∂E(\w)}{∂w_i} & = 0
\frac{∂}{∂w_i} \frac{1}{2} ∑n=1^N \{y(x_n,\w) - t_n\}^2 & = 0 \
∑n=1^N [\{y(x_n,\w) - t_n\} \frac{∂}{∂w_i} \{y(x_n,\w) - t_n\}] & = 0 \
∑n=1^N [\{y(x_n,\w) - t_n\} \frac{∂}{∂w_i} y(x_n,\w)] & = 0 \
∑n=1^N [\{y(x_n,\w) - t_n\} \frac{∂}{∂w_i} (∑j=0^M w_j x_n^j)] & = 0 \
∑n=1^N [\{y(x_n,\w) - t_n\} x_n^i] & = 0 \
∑n=1^N [x_n^i y(x_n,\w) - x_n^i t_n] & = 0 \
∑n=1^N [x_n^i (∑j=0^M w_j x_n^j) - x_n^i t_n] & = 0 \
∑n=1^N [x_n^i (∑j=0^M w_j x_n^j)] - ∑n=1^N x_n^i t_n & = 0 \
∑n=1^N [x_n^i (∑j=0^M w_j x_n^j)] & = ∑n=1^N x_n^i t_n \
∑j=0^M (∑n=1^N x_ni+j) w_j & = ∑n=1^N x_n^i t_n \
∑j=0^M Aij w_j & = T_i
\end{align*}
\begin{align*}
Aij & = ∑n=1^N x_ni+j \
T_i & = ∑n=1^N x_n^i t_n
\end{align*}
正規化された二乗和誤差
\begin{align*}
˜{E}(\w) = & \frac{1}{2} ∑n=1^N \{y(x_n,\w) - t_n\}^2 + \frac{λ}{2} \|\w\|^2
= & E(\w) + \frac{λ}{2} \|\w\|^2
\end{align*}
\begin{align*}
\frac{∂˜{E}(w)}{∂w_i} = & 0 \
\frac{∂}{∂w_i} (E(\w) + \frac{λ}{2} \|\w\|^2) = & 0 \
\frac{∂E(\w)}{∂w_i} + \frac{λ}{2} \frac{∂}{∂w_i} \|\w\|^2 = & 0 \
\frac{∂E(\w)}{∂w_i} + \frac{λ}{2} \frac{∂}{∂w_i} (∑j=0^M w_j^2) = & 0 \
\frac{∂E(\w)}{∂w_i} + λ w_i = & 0 \
∑j=0^M Aij w_j - T_i + λ w_i = & 0 \
∑j=0^M Aij w_j = & T_i - λ w_i
\end{align*}
確率の加法定理より
\begin{align*}
p(a) = & ∑_B p(a|B)p(B)
= & p(a|r)p(r) + p(a|b)p(b) + p(a|g)p(g) \
= & \frac{3}{3+4+3}0.2 + \frac{1}{1+1+0}0.2 + \frac{3}{3+3+4}0.6 \
= & \frac{3}{10}\frac{2}{10} + \frac{1}{2}\frac{2}{10} + \frac{3}{10}\frac{6}{10} \
= & \frac{6}{100} + \frac{10}{100} + \frac{18}{100} \
= & \frac{34}{100} \
\end{align*}
ベイズの定理より
\begin{align*}
p(g|o) = & \frac{p(o|g)p(g)}{p(o)}
\end{align*}
確率の加法定理より
\begin{align*}
p(o) = & ∑_B p(o|B)p(B) \
= & p(o|r)p(r) + p(o|b)p(b) + p(o|g)p(g) \
= & \frac{4}{3+4+3}0.2 + \frac{1}{1+1+0}0.2 + \frac{3}{3+3+4}0.6 \
= & \frac{4}{10}\frac{2}{10} + \frac{1}{2}\frac{2}{10} + \frac{3}{10}\frac{6}{10} \
= & \frac{8}{100} + \frac{10}{100} + \frac{18}{100} \
= & \frac{36}{100} \
\end{align*}
\begin{align*}
p(g|o) = & \frac{18}{100}/\frac{36}{100} \
= & \frac{1}{2} \
\end{align*}
最初に、関数\(f(x)\)の振る舞いが、 \(x = g(y)\)という変数変換によってどのように変わるか考える。 新しい\(y\)の関数\(˜{f}(y)\)を以下のように定義する。 \begin{align*} ˜{f}(y) = f(g(y)) & \text{(2)} \end{align*} \(f(x)\)は\(\hat{x}\)で最大値を取るので、\(f’(\hat{x}) = 0\)である。 (2)の両辺を\(y\)で微分する。 \begin{align*} ˜{f}’(\hat{y}) = f’(g(\hat{y}))g’(\hat{y}) = 0 & \text{(3)} \end{align*} \(g’(\hat{y}) ≠ 0\)と仮定すると、\(f’(g(\hat{y})) = 0\)である。 \(f’(\hat{x}) = 0\)だから、\(\hat{x} = g(\hat{y})\)である。
次に、確率密度\(p_x(x)\)の振る舞いが、 \(x = g(y)\)という変数変換によってどのように変わるか考える。 新しい\(y\)の確率密度\(p_y(y)\)は、(1.27)より以下のように書ける。 \begin{align*} p_y(y) = p_x(g(y))sg’(y) \end{align*} ここで\(s∈\{-1,+1\}\)である。 両辺を\(y\)で微分する。 \begin{align*} p_y’(y) = sp_x’(g(y))\{g’(y)\}^2 + sp_x(g(y))g”(y) & \text{(4)} \end{align*} 第2項の存在により、\(\hat{x} = g(\hat{y})\)は成り立たない。 \(g(y)\)が線形の場合は、\(g”(y) = 0\)より第2項が消えるので、 \(\hat{x} = g(\hat{y})\)が成り立つ。
\begin{align*}
var[f] & = E[(f(x) - E[f(x)])^2] & \text{(1.38)}
& = E[f(x)^2 - 2f(x)E[f(x)] + E[f(x)]^2] \
& = E[f(x)^2] - E[2f(x)E[f(x)] + E[E[f(x)]^2] \
& = E[f(x)^2] - 2E[f(x)]E[f(x)] + E[f(x)]^2 \
& = E[f(x)^2] - E[f(x)]^2 & \text{(1.39)}
\end{align*}
\begin{align*}
cov[x,y] & = Ex,y[{x - E[x]}{y - E[y]}] (1.42)
& = Ex,y[xy] - E[x]E[y]
\end{align*}
\(x\)と\(y\)が独立ならば、\(p(x,y) = p_x(x)p_y(y)\)
\begin{align*}
Ex,y[xy] & = ∫\int p(x,y)xydxdy \
& = ∫\int p_x(x)p_y(y)xydxdy \
& = ∫ p_x(x)xdx ∫ p_y(y)ydy \
& = E[x]E[y]
\end{align*}
\begin{align*}
I = ∫-∞^∞ exp(-\frac{1}{2σ^2}x^2) dx
\end{align*}
\begin{align*}
I^2 = & ∫-∞^∞ ∫-∞^∞ exp(- \frac{1}{2σ^2}x^2 - \frac{1}{2σ^2}y^2) dxdy
= & ∫-∞^∞ ∫-∞^∞ exp\{- \frac{1}{2σ^2}(x^2 + y^2)\} dxdy
\end{align*}
直交座標から極座標に変換すると、
\begin{align*}
I^2 = & ∫_02π ∫_0^∞ exp(-\frac{1}{2σ^2}r^2) r drdθ \
= & 2π ∫_0^∞ exp(-\frac{1}{2σ^2}r^2) r dr
\end{align*}
\(u = r^2\)という変数変換を行うと、
\begin{align*}
I^2 = & π ∫_0^∞ exp(-\frac{1}{2σ^2}u) du \
= & π (-2σ^2) \left[ exp(-\frac{1}{2σ^2}u) \right]_0^∞ \
= & π (-2σ^2) (-1) \
= & 2πσ^2 \
I = & (2πσ^2)1/2
\end{align*}
\begin{align*}
& ∫-∞^∞ N(x|μ,σ^2) dx \
= & (2πσ^2)-1/2 ∫-∞^∞ exp\{-\frac{1}{2σ^2}(x-μ)^2\} dx
\end{align*}
\(y = x-μ\) と置くと
\begin{align*}
= & (2πσ^2)-1/2 ∫-∞^∞ exp\{-\frac{1}{2σ^2}y^2\} dy \
= & (2πσ^2)-1/2 (2πσ^2)1/2 \
= & 1
\end{align*}
\begin{align*}
x = & r cos θ
y = & r sin θ \
\end{align*}
\begin{align*}
dxdy = & |J|drdθ \
= & \left|\frac{∂x}{∂r}\frac{∂y}{∂θ}
- \frac{∂x}{∂θ}\frac{∂y}{∂r}\right|drdθ
= & \left|- r cos^2 θ - r sin^2 θ\right|drdθ
= & rdrdθ
\end{align*}
(1.46) 1変数ガウス分布
\begin{align*}
N(x|μ,σ^2) = (2πσ^2)-1/2 exp\{-\frac{1}{2σ^2}(x-μ)^2\}
\end{align*}
x の期待値
\begin{align*}
E[x] = & ∫-∞^∞ N(x|μ,σ^2) x dx
= & (2πσ^2)-1/2 ∫-∞^∞ exp\{-\frac{1}{2σ^2}(x-μ)^2\} x dx
\end{align*}
ここで
\begin{align*}
y = & x - μ \
dy = & dx
\end{align*}
の変数変換を行うと
\begin{align*}
E[x] = & (2πσ^2)-1/2 ∫-∞^∞ exp\{-\frac{1}{2σ^2}y^2\} (y+μ) dy \
= & (2πσ^2)-1/2 \left[ ∫-∞^∞ exp\{-\frac{1}{2σ^2}y^2\} y dy +
μ ∫-∞^∞ exp\{-\frac{1}{2σ^2}y^2\} dy \right]
\end{align*}
括弧内の第1項は、演習1.7の r の積分と同じ形で積分範囲だけが異なる。
\begin{align*}
E[x] = (2πσ^2)-1/2 ( 0 + μ (2πσ^2)1/2 ) \
= μ …(1.49)
\end{align*}
(1.127) 規格化条件
\begin{align*}
∫-∞^∞ N(x|μ,σ^2) dx = 1
\end{align*}
両辺を σ^2 で微分する。
\begin{align*}
\frac{∂}{∂(σ^2)} ∫-∞^∞ N(x|μ,σ^2) dx = 0
∫-∞^∞ \frac{∂}{∂(σ^2)} N(x|μ,σ^2) dx = 0
\end{align*}
\begin{align*}
\frac{∂}{∂(σ^2)} N(x|μ,σ^2)
= & \frac{∂}{∂(σ^2)} [(2πσ^2)-1/2 exp\{-\frac{1}{2σ^2} (x-μ)^2\}] \
= & \frac{∂}{∂t} [(2πt)-1/2 exp\{-\frac{1}{2t} (x-μ)^2\}] \
= & [\frac{∂}{∂t} (2πt)-1/2] exp\{-\frac{1}{2t} (x-μ)^2\}
- (2πt)-1/2 \frac{∂}{∂t} exp\{-\frac{1}{2t} (x-μ)^2\}
= & - \frac{1}{2} (2πt)-1/2 (2πt)-1 2π exp\{-\frac{1}{2t} (x-μ)^2\}
& + (2πt)-1/2 exp\{-\frac{1}{2t} (x-μ)^2\} \{-\frac{1}{2t^2} (x-μ)^2\} \
= & - \frac{1}{2} 2π (2πt)-1 (2πt)-1/2 exp\{-\frac{1}{2t} (x-μ)^2\} \
& - \frac{1}{2t^2} (2πt)-1/2 exp\{-\frac{1}{2t} (x-μ)^2\} (x-μ)^2 \
= & - \frac{1}{2σ^2} N(x|μ,σ^2) - \frac{1}{2σ^4} N(x|μ,σ^2) (x-μ)^2
\end{align*}
\begin{align*}
0 = & ∫-∞^∞ \frac{∂}{∂(σ^2)} N(x|μ,σ^2) dx \
= & - \frac{1}{2σ^2} ∫-∞^∞ N(x|μ,σ^2) dx
- \frac{1}{2σ^4} ∫-∞^∞ N(x|μ,σ^2) (x-μ)^2 dx
= & - \frac{1}{2σ^2}
- \frac{1}{2σ^4} ∫-∞^∞ N(x|μ,σ^2) (x-μ)^2 dx
σ^2 = & ∫-∞^∞ N(x|μ,σ^2) (x-μ)^2 dx
= & ∫-∞^∞ N(x|μ,σ^2) (x^2 - 2xμ + μ^2) dx \
= & ∫-∞^∞ N(x|μ,σ^2) x^2 dx
- 2μ ∫-∞^∞ N(x|μ,σ^2) x dx
- μ^2 ∫-∞^∞ N(x|μ,σ^2) dx
= & ∫-∞^∞ N(x|μ,σ^2) x^2 dx - 2μ μ + μ^2
= & ∫-∞^∞ N(x|μ,σ^2) x^2 dx - μ^2 \
\end{align*}
\begin{align*}
∫-∞^∞ N(x|μ,σ^2) x^2 dx = σ^2 + μ^2
\end{align*}
\begin{align*}
var[x] = & E[x^2] - E[x]^2
= & (μ^2 + σ^2) - μ^2 \
= & σ^2
\end{align*}
1変数ガウス分布
\begin{align*}
N(x|μ,σ^2) = (2πσ^2)-1/2 exp\{-\frac{1}{2σ^2}(x-μ)^2\} (1.46)
\end{align*}
\(x\) で微分する。
\begin{align*}
N & ∝ exp\{-\frac{1}{2σ^2}(x-μ)^2\}
\frac{dN}{dx} & ∝ \frac{d}{dx} exp\{-\frac{1}{2σ^2}(x-μ)^2\} \
& = [\frac{d}{dx} \{-\frac{1}{2σ^2}(x-μ)^2\}] exp\{-\frac{1}{2σ^2}(x-μ)^2\} \
& = -\frac{x(x-μ)}{σ^2} exp\{-\frac{1}{2σ^2}(x-μ)^2\} \
\end{align*}
モードを \(xmode\) とすると、
\begin{align*}
-\frac{xmode(xmode-μ)}{σ^2} exp\{-\frac{1}{2σ^2}(xmode-μ)^2\} = 0 \
xmode = 0, μ
\end{align*}
多変量ガウス分布
\begin{align*}
N(x|μ,Σ^2) = (2π)-D/2 |Σ|-1/2 exp\{-\frac{1}{2} (x-μ)^T Σ-1 (x-μ)\} (1.52)
\end{align*}
\(x\) で微分する。
\begin{align*}
N & ∝ exp\{-\frac{1}{2} (x-μ)^T Σ-1 (x-μ)\} \
\frac{∂N}{∂x_i} & ∝ \frac{∂}{∂x_i} exp\{-\frac{1}{2} (x-μ)^T Σ-1 (x-μ)\} \
& = [\frac{∂}{∂x_i} \{-\frac{1}{2} (x-μ)^T Σ-1 (x-μ)\}]
exp\{-\frac{1}{2} (x-μ)^T Σ-1 (x-μ)\} \
& = -\frac{1}{2} [\frac{∂}{∂x_i} \{(x-μ)^T Σ-1 (x-μ)\}]
exp\{-\frac{1}{2} (x-μ)^T Σ-1 (x-μ)\}
\end{align*}
モードを \(xmode\) とすると、
\begin{align*}
-\frac{1}{2} [\frac{∂}{∂x_i} \{(x-μ)^T Σ-1 (x-μ)\}]
exp\{-\frac{1}{2} (x-μ)^T Σ-1 (x-μ)\} = 0 \
\frac{∂}{∂x_i} \{(x-μ)^T Σ-1 (x-μ)\} = 0 \
\frac{∂}{∂x_i} \{∑_i ∑_j Σ-1i,j (x-μ)\} = 0 \
Σ-1i,i (x_i - μ_i)^2 = 0 \
2 Σ-1i,i (x_i - μ_i) (x_i - μ_i)^2 = 0 \
x = 0, μ
\end{align*}
\begin{align*}
x^T X x & = ∑_i ∑_j x_i Xi,j x_j \
∂/∂x_k x^T X x & = ∂/∂x_k ∑_i ∑_j x_i Xi,j x_j \
& = Xk,k x_k^2
\end{align*}
\begin{align*}
p(x,z) & = p_x(x) p_z(z)
\end{align*}
\begin{align*}
E[x+z] & = ∫\int p_x(x) p_z(z) (x+z) dxdz \
& = ∫\int p_x(x) p_z(z) x dxdz + ∫\int p_x(x) p_z(z) z dxdz \
& = ∫ p_x(x) x dx ∫ p_z(z) dz + ∫ p_x(x) dx ∫ p_z(z) z dz \
& = ∫ p_x(x) x dx + ∫ p_z(z) z dz \
& = E[x] + E[z] \
\end{align*}
\begin{align*}
var[x+z] & = E[(x+z)^2] - E[x+z]^2 \
& = E[x^2 + 2xz + z^2] - (E[x] + E[z])^2 \
& = E[x^2] + 2E[xz] + E[z^2] - E[x]^2 - 2E[x]E[z] - E[z]^2 \
& = E[x^2] + 2E[x]E[z] + E[z^2] - E[x]^2 - 2E[x]E[z] - E[z]^2 \
& = E[x^2] + E[z^2] - E[x]^2 - E[z]^2 \
& = var[x] + var[z]
\end{align*}