10장. 군집화

개요

거리(distance) 또는 유사도(similarity)는 군집 내외의 샘플들 간의 거리를 계산하기 위해 필요하다.
양적 특징 (거리 개념 있음)
- 수량 값
질적 특징 (거리 개념 없음)
- 순서 값 : 학점(A, B, ..., F)
- 명칭 값 : 혈액형
처리와 유사도 측정 방법
- Minkowski 거리 -> 유클리디언 거리, 맨하탄 거리
- 마할노비스 거리: 특징이 속한 분포를 고려
- 코사인 유사도: 단어 출현 빈도를 활용
점 or 군집 과 군집 사이의 거리
- min, max, avg, mean, rep 활용
- 점을 군집으로 계산할 때는 군집 내의 모든 점과 다른 군집 내의 모든 점간의 거리를 계산

순차 알고리즘 : 임계값을 기준으로 가장 가까운 군집을 찾아낸다.
k-means 알고리즘 : 속도가 빠르며 성능도 괜찮아서 가장 널리 쓰임
- squared error 를 사용하는 gradient descent 방법의 일종
- 따라서, 초기값에 민간하며 local minimum 에 빠질 수 있음
- 다중 시작 알고리즘으로 위 단점을 어느정도 해소가 가능함
- 다중 시작 알고리즘은 서로 다른 초기 군집 중심을 갖는 여러 개의 k-means를 수행하고 그 중 성능이 가장 좋은 것을 취한다.

SOM(Self Organizing Map)
- 유연성이 좋다 ; 새로운 샘플에 weight가 잘 학습된다.
- 안정성이 떨어진다 ; 샘플이 특정 군집에 한번 배정되면 이후 세대에서도 그 군집에 계속 머무를 가능성이 크다.
ART(Adaptive Resonance Theory)
- 안정성과 유연성을 조화롭게 추구하려는 목적에서 고안됨
- 상향 가중치 벡터와 하향 가중치 벡터를 도입; weight를 반영할 때 바로 반영하지 않고 검증 과정을 통해 반영할지 말지 결정한다.