Skip to content

2장. 베이시언 결정 이론

Jang YoungWhan edited this page Apr 2, 2017 · 3 revisions

베이시언 결정 이론

  • 조건부 확률 Conditional probability
  • 결합 확률 Joint probability: product rule
  • 주변 확률 Marginal probability: sum rule
  • 독립 Independent <=> P(x, y) = P(x)P(y)
  • 사전 확률 prior probability
  • 우도 likelihood
  • 사후 확률 posterior probability
  • Bayes rule:
  • P(X, Y) = P(Y, X)
  • P(X)P(Y|X) = P(Y)P(X|Y)

이산 확률 분포

연속 확률 분포

샘플 집합

  • p33에 샘플 집합에서의 분산을 구할때에는 바이어스의 영향으로 N-1로 나누어주어야 한다. =>왜죠..?

변수의 수가 d개이고, 각 변수의 구간이 q개 라면 d차원의 배열을 사용해야하고 q^d에 비례하는 메모리가 필요하다.

최소 오류 베이지언 분류기 minimum error Bayesian classifier

  • if 부류가 2개일때,
  • "P(w1|x)>P(w2|x)이면 x를 w1로 분류하고,
  • P(w1|x)<P(w2|x)이면 x를 w2로 분류한다"
  • 우도와 사전 확률을 정확하게 알고있어야 최적성 검증이 가능하긴 하지만, 이론적으로는 '오류율 기준으로 최적'이라고 말할 수 있다.

최소 위험 베이지언 분류기 minimum risk Bayesian classifier

  • if 부류가 2개일때,
  • "x를 q2 > q1이면, w1로 분류하고, q1 > q2이면 w2로 분류하라.
  • 이때 q1 = c11p(x|w1)P(w1) + c21(p(x|w2)P(w2),
  • q2 = c12p(x|w1)P(w1) + c22(p(x|w2)P(w2)"
    
  • 손실 행렬 loss matrix을 사용하여 손실 D를 계산했을 때, 손실 D를 최소화 하기 위한 분류기
  • (False Positive 혹은 False Negative의 중요도가 서로 다를 때 유용)
  • 우도비 결정 규칙
  • x와 무관한 항을 모아 미리 계산함
  • "x를 p(x|w1)/P(x|w2)>T 이면 w1로 분류하고,
  • p(x|w1)/p(x|w2)<T이면 w2로 분류하라.
  • 이때 T = ((c21 - c22)P(w2))/((c12 - c11)P(w1))"

분별 함수 discriminant function

  • 장점:
    1. 서로 다른 여러 분류기를 일반적인 틀에 넣어 해석할 수 있다.
    1. 상대적인 크기를 비교하여 의사 결정을 하므로 단조 증가 함수 monotonically increasing를 취해도 같은 결과를 갖는다.
  • 2-1. log를 가장 많이 씀.
  • *->+, /->-로 정리할 수 있기 때문에 수식을 간단히 정리하는데 도움이 되고,
  • 확률 값[0, 1]이 아주 작은 경우 소수점 이하 정확도에 관련한 수치오류가 발생할 수 있으나 log를 취한 값을 사용하면 값의 규모가 커져서 이런 수치 오류를 방지할 수 있다.

정규 분포에서 베이지언 분류기

  • 분별 함수 gi(x)에 ln을 취하여 사용한다.
  • 이 분별 함수 gi(x)를 이용하여
    1. 공분산이 모두 같은 경우 => 선형 분별(LDA linear discriminant analysis)
  • i에 무관한 항들은 모든 부류가 같은 값을 갖게 되어서 제거해도됨. 2차식이 사라지고 1차식만 남는다. 시그마-1(u1 - u2)에 orthogonal함. 모양은 타원
  • 1-1) 공분산의 역행렬이 모두 1/6^2I의 값을 가지고 있는 경우 u1 - u2에 orthogonal함. 모양은 원
    1. 공분산이 모두 다른 경우 => 2차 분별(QDA qudratic discriminant analysis)

최소 거리 분류기 minimum distance classifier

  • 사전행렬과 공분산이 같다고 가정한 후, 분별 함수 gi(x)를 유도함. 이때 gi(x)를 최대로 한다는 것은 마할라노비스의 거리를 최소로 한다는 것과 같은말.
  • 유클리드는 공분산의 역행렬이 1/6^2I를 가지고있을 때
    1. 마할라노비스 거리 Mahalanobis distance
    1. 유클리드 거리 Euclidean distance = Euclidean norm 분포의 비중에 대한 거리를 구할 수 있게 됨.

나이브 베이지안 분류 naive bayseian classifier

  • 모든 특징이 독립이라고 가정하고, product rule을 이용하여 우도를 구함.
  • 장: 차원의 저주를 피할 수 있다.
  • 단: 실세계에서는 독립이라는 특징이 매우 강한 가정이기 때문에, 분류기의 성능을 저하시키는 요인이 됨.

기각 처리 Rejection

  • 델타 값에 따라서 기각을 결정함(델타 : |P(x|w1)P(w1) - p(x|w2)P(w2)|)
  • 이때, 기각율과 오류율은 어떤 관계를 가질까? 반비례

Reference