https://arxiv.org/abs/2208.06366

BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers (Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, Furu Wei)

mae로 대체될 것 같았는데 beit를 좀 더 시도해봤군요. clip representation을 예측하도록 만든 vq-vae + cls 토큰과 intermediate feature를 결합해서 추가적으로 mim loss를 계산 조합으로 성능을 높였습니다. clip에 대한 kd가 들어간 형태라 공정하지는 않을 것 같긴 합니다.

#self_supervised #vit #mlm

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220812 BEiT v2.md

220812 BEiT v2.md

Files

220812 BEiT v2.md

Latest commit

History

220812 BEiT v2.md

File metadata and controls