https://arxiv.org/abs/2004.08744
Are we pretraining it right? Digging deeper into visio-linguistic pretraining (Amanpreet Singh, Vedanuj Goswami, Devi Parikh)
요즘 많이 나오는 vision-text 프리트레이닝에 대한 분석. 프리트레이닝과 파인튜닝 데이터의 도메인의 차이가 엄청나게 중요하다는 결과. vision-text 영역에서는 프리트레이닝이 그냥 다 된다 수준의 결과가 나오기는 어려운 듯.
#multimodal #pretraining