https://arxiv.org/abs/2210.02849
XDoc: Unified Pre-training for Cross-Format Document Understanding (Jingye Chen, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei)
1d pos embed로 일반적인 텍스트에 대한 mlm + 2d pos embed로 ocr text에 대한 mlm + xpath embed로 웹 문서에 대한 mlm으로 학습시켜서 세 종류 문서에 대한 대응이 가능하게 만들었군요. 그런데 ocr text에 대한 베이스라인은 layoutlm v1을 가져온 것 같네요. 텍스트하고 2d pos embed만 써서인지.
#layoutlm #mlm