https://arxiv.org/abs/2004.06100
Pretrained Transformers Improve Out-of-Distribution Robustness (Dan Hendrycks, Xiaoyuan Liu, Eric Wallace, Adam Dziedzic, Rishabh Krishnan, Dawn Song)
프리트레이닝된 트랜스포머가 1. OOD 데이터에 대해서도 성능이 높고 2. 그러나 큰 모델이라고 더 잘 되는 것은 아니고 3. 그렇지만 데이터를 많이 쓰면 더 낫고 4. OOD 탐지도 잘 된다. 프리트레이닝 대승리!
#pretraining #out_of_distribution