https://arxiv.org/abs/2107.12292
Contextual Transformer Networks for Visual Recognition (Yehao Li, Ting Yao, Yingwei Pan, Tao Mei)
트랜스포머...라고 되어있기는 하지만 dynamic convolution에 가깝다는 느낌이긴 하네요. 레이턴시는 swin보다 좀 빠른 쪽인 것 같긴 한데 디텍션 성능이 어떨찌 볼 필요가 있을 듯 합니다. dynamic convolution 때문에 커스텀 커널이 필요한 것은 아쉽긴 하네요.
#backbone