On the Dynamics of Training Attention Models (Haoye Lu, Yongyi Mao, Amiya Nayak)
attention의 학습 과정에 대한 연구. 결과가 여럿 있는데 real world 데이터셋 학습 과정에서 나타난 패턴이 눈에 띔. 학습 초기에는 출현 빈도가 높은 단어들에 attention이 꽂히다가 학습이 진행될수록 출현 빈도가 낮더라도 (pos/neg classification 문제에서) positive/negative와 더 상관이 높은 단어들로 attention이 집중됨. 당연하다면 당연하다고 할 수 있긴 하겠지만...
#attention #training