https://arxiv.org/abs/2011.04006
Long Range Arena: A Benchmark for Efficient Transformers (Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, Philip Pham, Jinfeng Rao, Liu Yang, Sebastian Ruder, Donald Metzler)
오픈리뷰에 올라왔었던 efficient attention 모델 비교. 역시 다 잘 되는 모델은 없고 linear attention에는 한계가 보임. 논문에서 비교한 모델 중에서는 performer가 가장 괜찮아 보이는 듯.
#review #attention #efficient_attention