Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 496 Bytes

210909 Bag of Tricks for Optimizing Transformer Efficiency.md

File metadata and controls

7 lines (4 loc) · 496 Bytes

https://arxiv.org/abs/2109.04030

Bag of Tricks for Optimizing Transformer Efficiency (Ye Lin, Yanyang Li, Tong Xiao, Jingbo Zhu)

nmt 모델 추론 속도 가속하기. 대부분의 시간을 디코더에서 잡아막으니 디코더를 깎는 것이 핵심인데...ffn이 없는 1 헤드 1 디코더 블럭으로 디코더를 축소했군요. 그냥 lstm 쓰기와 비교하면 어떨지 궁금하네요. (이정도로 줄이면 비슷할 것 같긴 하네요.)

#nmt #transformer #lightweight