https://arxiv.org/abs/2111.02358

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts (Wenhui Wang, Hangbo Bao, Li Dong, Furu Wei)

mixture of expert를 modality별로 만들어서 모델을 분리할 수 있게 만들었네요. vision/language 입력을 한 번에 입력해서 두 modality를 결합하는 인코더로 활용하거나 분리된 모델을 각각의 modality에 대한 인코더로 활용할 수 있습니다. (clip처럼.)

#mixture_of_experts #vision-language #pretraining

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

211103 VLMo.md

211103 VLMo.md

Files

211103 VLMo.md

Latest commit

History

211103 VLMo.md

File metadata and controls