https://arxiv.org/abs/2111.02358
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts (Wenhui Wang, Hangbo Bao, Li Dong, Furu Wei)
mixture of expert를 modality별로 만들어서 모델을 분리할 수 있게 만들었네요. vision/language 입력을 한 번에 입력해서 두 modality를 결합하는 인코더로 활용하거나 분리된 모델을 각각의 modality에 대한 인코더로 활용할 수 있습니다. (clip처럼.)
#mixture_of_experts #vision-language #pretraining