Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 517 Bytes

211103 VLMo.md

File metadata and controls

7 lines (4 loc) · 517 Bytes

https://arxiv.org/abs/2111.02358

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts (Wenhui Wang, Hangbo Bao, Li Dong, Furu Wei)

mixture of expert를 modality별로 만들어서 모델을 분리할 수 있게 만들었네요. vision/language 입력을 한 번에 입력해서 두 modality를 결합하는 인코더로 활용하거나 분리된 모델을 각각의 modality에 대한 인코더로 활용할 수 있습니다. (clip처럼.)

#mixture_of_experts #vision-language #pretraining