https://arxiv.org/abs/2208.06366
BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers (Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, Furu Wei)
mae로 대체될 것 같았는데 beit를 좀 더 시도해봤군요. clip representation을 예측하도록 만든 vq-vae + cls 토큰과 intermediate feature를 결합해서 추가적으로 mim loss를 계산 조합으로 성능을 높였습니다. clip에 대한 kd가 들어간 형태라 공정하지는 않을 것 같긴 합니다.
#self_supervised #vit #mlm