-
Notifications
You must be signed in to change notification settings - Fork 1
2장. 베이시언 결정 이론
Jang YoungWhan edited this page Apr 2, 2017
·
3 revisions
- 조건부 확률 Conditional probability
- 결합 확률 Joint probability: product rule
- 주변 확률 Marginal probability: sum rule
- 독립 Independent <=> P(x, y) = P(x)P(y)
- 사전 확률 prior probability
- 우도 likelihood
- 사후 확률 posterior probability
- Bayes rule:
- P(X, Y) = P(Y, X)
- P(X)P(Y|X) = P(Y)P(X|Y)
- p33에 샘플 집합에서의 분산을 구할때에는 바이어스의 영향으로 N-1로 나누어주어야 한다. =>왜죠..?
- https://en.wikipedia.org/wiki/Bessel%27s_correction
- http://www.tmath.or.kr/kin/qna/detail.asp?qnaNum=297
- if 부류가 2개일때,
- "P(w1|x)>P(w2|x)이면 x를 w1로 분류하고,
- P(w1|x)<P(w2|x)이면 x를 w2로 분류한다"
- 우도와 사전 확률을 정확하게 알고있어야 최적성 검증이 가능하긴 하지만, 이론적으로는 '오류율 기준으로 최적'이라고 말할 수 있다.
- if 부류가 2개일때,
- "x를 q2 > q1이면, w1로 분류하고, q1 > q2이면 w2로 분류하라.
- 이때 q1 = c11p(x|w1)P(w1) + c21(p(x|w2)P(w2),
-
q2 = c12p(x|w1)P(w1) + c22(p(x|w2)P(w2)"
- 손실 행렬 loss matrix을 사용하여 손실 D를 계산했을 때, 손실 D를 최소화 하기 위한 분류기
- (False Positive 혹은 False Negative의 중요도가 서로 다를 때 유용)
- 우도비 결정 규칙
- x와 무관한 항을 모아 미리 계산함
- "x를 p(x|w1)/P(x|w2)>T 이면 w1로 분류하고,
- p(x|w1)/p(x|w2)<T이면 w2로 분류하라.
- 이때 T = ((c21 - c22)P(w2))/((c12 - c11)P(w1))"
- 장점:
-
- 서로 다른 여러 분류기를 일반적인 틀에 넣어 해석할 수 있다.
-
- 상대적인 크기를 비교하여 의사 결정을 하므로 단조 증가 함수 monotonically increasing를 취해도 같은 결과를 갖는다.
- 2-1. log를 가장 많이 씀.
- *->+, /->-로 정리할 수 있기 때문에 수식을 간단히 정리하는데 도움이 되고,
- 확률 값[0, 1]이 아주 작은 경우 소수점 이하 정확도에 관련한 수치오류가 발생할 수 있으나 log를 취한 값을 사용하면 값의 규모가 커져서 이런 수치 오류를 방지할 수 있다.
- 분별 함수 gi(x)에 ln을 취하여 사용한다.
- 이 분별 함수 gi(x)를 이용하여
-
- 공분산이 모두 같은 경우 => 선형 분별(LDA linear discriminant analysis)
- i에 무관한 항들은 모든 부류가 같은 값을 갖게 되어서 제거해도됨. 2차식이 사라지고 1차식만 남는다. 시그마-1(u1 - u2)에 orthogonal함. 모양은 타원
- 1-1) 공분산의 역행렬이 모두 1/6^2I의 값을 가지고 있는 경우 u1 - u2에 orthogonal함. 모양은 원
-
- 공분산이 모두 다른 경우 => 2차 분별(QDA qudratic discriminant analysis)
- 사전행렬과 공분산이 같다고 가정한 후, 분별 함수 gi(x)를 유도함. 이때 gi(x)를 최대로 한다는 것은 마할라노비스의 거리를 최소로 한다는 것과 같은말.
- 유클리드는 공분산의 역행렬이 1/6^2I를 가지고있을 때
-
- 마할라노비스 거리 Mahalanobis distance
-
- 유클리드 거리 Euclidean distance = Euclidean norm 분포의 비중에 대한 거리를 구할 수 있게 됨.
- 모든 특징이 독립이라고 가정하고, product rule을 이용하여 우도를 구함.
- 장: 차원의 저주를 피할 수 있다.
- 단: 실세계에서는 독립이라는 특징이 매우 강한 가정이기 때문에, 분류기의 성능을 저하시키는 요인이 됨.
- 델타 값에 따라서 기각을 결정함(델타 : |P(x|w1)P(w1) - p(x|w2)P(w2)|)
- 이때, 기각율과 오류율은 어떤 관계를 가질까? 반비례
- Naive Bayes 와 Character n-gram을 활용한 언어감지기
- 언어감지기 슬라이드