https://arxiv.org/abs/2109.04030
Bag of Tricks for Optimizing Transformer Efficiency (Ye Lin, Yanyang Li, Tong Xiao, Jingbo Zhu)
nmt 모델 추론 속도 가속하기. 대부분의 시간을 디코더에서 잡아막으니 디코더를 깎는 것이 핵심인데...ffn이 없는 1 헤드 1 디코더 블럭으로 디코더를 축소했군요. 그냥 lstm 쓰기와 비교하면 어떨지 궁금하네요. (이정도로 줄이면 비슷할 것 같긴 하네요.)
#nmt #transformer #lightweight