2장. 베이시언 결정 이론

Jump to bottom

Jang YoungWhan edited this page Apr 2, 2017 · 3 revisions

베이시언 결정 이론

조건부 확률 Conditional probability
결합 확률 Joint probability: product rule
주변 확률 Marginal probability: sum rule
독립 Independent <=> P(x, y) = P(x)P(y)
사전 확률 prior probability
우도 likelihood
사후 확률 posterior probability
Bayes rule:
P(X, Y) = P(Y, X)
P(X)P(Y|X) = P(Y)P(X|Y)

이산 확률 분포

연속 확률 분포

샘플 집합

p33에 샘플 집합에서의 분산을 구할때에는 바이어스의 영향으로 N-1로 나누어주어야 한다. =>왜죠..?

변수의 수가 d개이고, 각 변수의 구간이 q개 라면 d차원의 배열을 사용해야하고 q^d에 비례하는 메모리가 필요하다.

최소 오류 베이지언 분류기 minimum error Bayesian classifier

if 부류가 2개일때,
"P(w1|x)>P(w2|x)이면 x를 w1로 분류하고,
P(w1|x)<P(w2|x)이면 x를 w2로 분류한다"
우도와 사전 확률을 정확하게 알고있어야 최적성 검증이 가능하긴 하지만, 이론적으로는 '오류율 기준으로 최적'이라고 말할 수 있다.

최소 위험 베이지언 분류기 minimum risk Bayesian classifier

if 부류가 2개일때,
"x를 q2 > q1이면, w1로 분류하고, q1 > q2이면 w2로 분류하라.
이때 q1 = c11p(x|w1)P(w1) + c21(p(x|w2)P(w2),

q2 = c12p(x|w1)P(w1) + c22(p(x|w2)P(w2)"

손실 행렬 loss matrix을 사용하여 손실 D를 계산했을 때, 손실 D를 최소화 하기 위한 분류기
(False Positive 혹은 False Negative의 중요도가 서로 다를 때 유용)
우도비 결정 규칙
x와 무관한 항을 모아 미리 계산함
"x를 p(x|w1)/P(x|w2)>T 이면 w1로 분류하고,
p(x|w1)/p(x|w2)<T이면 w2로 분류하라.
이때 T = ((c21 - c22)P(w2))/((c12 - c11)P(w1))"

분별 함수 discriminant function

장점:
1. 서로 다른 여러 분류기를 일반적인 틀에 넣어 해석할 수 있다.
1. 상대적인 크기를 비교하여 의사 결정을 하므로 단조 증가 함수 monotonically increasing를 취해도 같은 결과를 갖는다.
2-1. log를 가장 많이 씀.
*->+, /->-로 정리할 수 있기 때문에 수식을 간단히 정리하는데 도움이 되고,
확률 값[0, 1]이 아주 작은 경우 소수점 이하 정확도에 관련한 수치오류가 발생할 수 있으나 log를 취한 값을 사용하면 값의 규모가 커져서 이런 수치 오류를 방지할 수 있다.

정규 분포에서 베이지언 분류기

분별 함수 gi(x)에 ln을 취하여 사용한다.
이 분별 함수 gi(x)를 이용하여
1. 공분산이 모두 같은 경우 => 선형 분별(LDA linear discriminant analysis)
i에 무관한 항들은 모든 부류가 같은 값을 갖게 되어서 제거해도됨. 2차식이 사라지고 1차식만 남는다. 시그마-1(u1 - u2)에 orthogonal함. 모양은 타원
1-1) 공분산의 역행렬이 모두 1/6^2I의 값을 가지고 있는 경우 u1 - u2에 orthogonal함. 모양은 원
1. 공분산이 모두 다른 경우 => 2차 분별(QDA qudratic discriminant analysis)

최소 거리 분류기 minimum distance classifier

사전행렬과 공분산이 같다고 가정한 후, 분별 함수 gi(x)를 유도함. 이때 gi(x)를 최대로 한다는 것은 마할라노비스의 거리를 최소로 한다는 것과 같은말.
유클리드는 공분산의 역행렬이 1/6^2I를 가지고있을 때
1. 마할라노비스 거리 Mahalanobis distance
1. 유클리드 거리 Euclidean distance = Euclidean norm 분포의 비중에 대한 거리를 구할 수 있게 됨.

나이브 베이지안 분류 naive bayseian classifier

모든 특징이 독립이라고 가정하고, product rule을 이용하여 우도를 구함.
장: 차원의 저주를 피할 수 있다.
단: 실세계에서는 독립이라는 특징이 매우 강한 가정이기 때문에, 분류기의 성능을 저하시키는 요인이 됨.

기각 처리 Rejection

델타 값에 따라서 기각을 결정함(델타 : |P(x|w1)P(w1) - p(x|w2)P(w2)|)
이때, 기각율과 오류율은 어떤 관계를 가질까? 반비례

Reference

Naive Bayes 와 Character n-gram을 활용한 언어감지기
언어감지기 슬라이드