https://arxiv.org/abs/2104.06683
The Curious Case of Hallucinations in Neural Machine Translation (Vikas Raunak, Arul Menezes, Marcin Junczys-Dowmunt)
nmt에서 이상한 문장 혹은 반복적인 phrase들을 생성하는 hallucination에 대한 분석. 데이터셋을 외워버리는 경향 + 데이터셋의 노이즈 + 빽 트랜슬레이션과 시퀀스 디스틸에 자연어의 롱 테일까지 겹친 많이 매운 상황. 결국 실제 데이터 및 데이터 분포와 싸워야 하는 상황이 된 것인지.
#mt #hallucination