https://arxiv.org/abs/1904.05873
machine translation에서도 attention term 중 여럿을 제거할 수 있다는 것이 흥미롭지만 저자에 따르면 제거하더라도 computation cost 차원에서 큰 차이가 없다고. (1d sequence라서.)
#attention
https://arxiv.org/abs/1904.05873
machine translation에서도 attention term 중 여럿을 제거할 수 있다는 것이 흥미롭지만 저자에 따르면 제거하더라도 computation cost 차원에서 큰 차이가 없다고. (1d sequence라서.)
#attention