Skip to content
e9t edited this page Dec 4, 2014 · 3 revisions

여전히 WSD계에서 의문인 사항들:

  • 특정 언어의 특정 단어가 특정 컨텍스트에서 유한 개의 의미(sense)를 가질까?
  • Context가 동일하다고 하더라고, 특정 단어의 의미는 deterministic하게 결정될까, stochastic하게 결정될까?

WSD를 푸는 방법들도 여느 NLP 문제와 같이 rule-based, unsupervised, supervised, semi-supervised 방법론 등이 적용될 수 있다.

  • rule-based: 사전 기반의 고대 방법론
  • unsupervised: hard or soft clustering
  • supervised: 하나의 단어에 하나의 단어만 matching 시킬거냐? 또는 ranking? present distributions? memberships? 어떤 granularity level에서 작업할 것이냐? (당연한 얘기지만 단어의 sense를 coarse하게 정의할수록 성능은 올라가고, 실질적인 뉘앙스는 잡아내지 못함)

WSD가 어려운 이유는,

  • 위와 같이 고민과 논란이 여전히 많은 영역이고
  • 사전을 다양한 granularity에 따라 생성하는 것도 어렵고
  • 다양한 도메인에 adaptive할 수 있는 WSD를 하는 것은 워낙 힘든 일이기 때문에 :된 사례도 많이 없음

게다가 논란이 많은 만큼 standard한 데이터 구조나 방법도 없어서 각종 resource가 흩어져 있고, 합치기 어려움. 그래서 이렇게 다양한 데이터 구조 간 mapping을 생성하는 사람들도 있음. (그리고 이러한 문제 제기에 따라 SENSEVAL 1,2,3 & SEMVAL 1,2 대회가 생기기도 함.)

Application 영역에 따라 WSD의 가치가 달라지기도 한다.

  • IR: WSD 필요 없음. 쿼리의 단어 몇 개, 문서의 단어 몇 개를 매칭하면 implicit disambiguation이 됨.
  • SR: 단어의 class를 추정하는 것보다 context의 class를 추정하는게 나음. 여러 개의 의미를 가지는 하나의 단어도 특정 도메인이나 장르 내에서는 하나의 의미를 가지는 경우가 많기 때문. (바꿔 말하면, WSD는 domain-specific한 경우보다 domain-independent한 경우에 필요하다.)

평가 결과에는 이론적인 boundary가 있다.

  • Lower bound: MFS(most frequent sense)로 무조건 mapping
  • Upper bound: 여러 사람이 corpus를 annotation했을 때의 aggreement 정도 (컴퓨터는 이 이상의 성능을 내지 못한다)

WSD의 종류는 세 가지이다:

  • homonymy
  • polysemy
  • categorical ambiguity

Resources

  • 영어
    • LDOCE (Longman Dictionary of Contemporary English)
    • Roget's Thesauraus
    • WordNet: Hypernymy, homonymy, meronymy 등 포함
    • SEMCOR: Brown corpus + WordNet senses
    • DSO Corpus of Sense-Tagged English: Brown corpus, WSJ corpus + WordNet senses
    • SENSEVAL
    • OntoNotes: LDC를 통해 공개된 biggest sense annotation effort so far (SEMEVAL 2007이 이 코퍼스 기반)
    • WordNet Domains: WordNet에 domain label 달기
  • 중국어

System

  1. Rule-based
    • Banerjee and Pedersen (2002): 5-gram context window와 사전 설명을 매칭해서 16-32% 성능
    • Yarowsky (1992): 10M 단어 백과사전에 등장하는 용례 중 100개 인접 단어를 보고 1,042개 카테고리로 분류
    • Navigli and Velardi (2005): 단어간 graphical relation을 이용
    • 그 외에도 Wikipedia, WordNet의 hierarchical concept 정보 등을 활용한 연구도 많음 (ex: WikiRelate!, BabelNet)
  2. Supervised
    • Classifier: 보통 SVM, MaxEnt가 좋은 성능
    • Features
      • 기본: Lexical context(문단, 5-gram context window 등), POS, BOW, local collocations, syntactic relations, topics
      • 고려: Voice(passive, semipassive, active, etc), presence of subject/object, sentential complement, prepositional phrase adjunct, Named entity, WordNet, path, subcategorization
  3. Unsupervised
    • Rada et al. (1989)
  4. Semi-supervised
    • Yarowsky (1995)