https://arxiv.org/abs/2004.09297
MPNet: Masked and Permuted Pre-training for Language Understanding (Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu)
MLM(BERT)와 PLM(XLNet)을 합치기. MLM은 masked token 사이의 관계가 모델링이 안 되고 PLM은 전체 문장의 position 정보가 모델링이 안 되기 때문에 둘을 통합하는 것이 의미있다는 아이디어.
#language_model #pretraining