https://arxiv.org/abs/2106.00666
You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection (Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu)
detr에 vit를 바로 가져다가 디코더 없이 객체 쿼리와 함께 트랜스포머를 통과시켜 디텍션하기. 논문에 쓰여진 것처럼 고성능 디텍터를 만든 결과라기보다는 이런 것도 되네라는 느낌으로 볼 수 있을 것 같습니다. (사실 트랜스포머 앞에서 이런 건 안 될 거라고 생각하는 게 약간 문제가 있을 것 같긴 합니다만.)
#object_detection #vit