Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 535 Bytes

221006 XDoc.md

File metadata and controls

7 lines (4 loc) · 535 Bytes

https://arxiv.org/abs/2210.02849

XDoc: Unified Pre-training for Cross-Format Document Understanding (Jingye Chen, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei)

1d pos embed로 일반적인 텍스트에 대한 mlm + 2d pos embed로 ocr text에 대한 mlm + xpath embed로 웹 문서에 대한 mlm으로 학습시켜서 세 종류 문서에 대한 대응이 가능하게 만들었군요. 그런데 ocr text에 대한 베이스라인은 layoutlm v1을 가져온 것 같네요. 텍스트하고 2d pos embed만 써서인지.

#layoutlm #mlm