Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 530 Bytes

220812 BEiT v2.md

File metadata and controls

7 lines (4 loc) · 530 Bytes

https://arxiv.org/abs/2208.06366

BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers (Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, Furu Wei)

mae로 대체될 것 같았는데 beit를 좀 더 시도해봤군요. clip representation을 예측하도록 만든 vq-vae + cls 토큰과 intermediate feature를 결합해서 추가적으로 mim loss를 계산 조합으로 성능을 높였습니다. clip에 대한 kd가 들어간 형태라 공정하지는 않을 것 같긴 합니다.

#self_supervised #vit #mlm