Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 533 Bytes

211031 Efficiently Modeling Long Sequences with Structured State Spaces.md

File metadata and controls

7 lines (4 loc) · 533 Bytes

https://arxiv.org/abs/2111.00396

Efficiently Modeling Long Sequences with Structured State Spaces (Albert Gu, Karan Goel, Christopher Ré)

state space model이 이런 형태로 등장하네요. discrete time에서는 결과적으로 특정한 구조의 weight를 가진 linear rnn의 형태인데...long range arena에서는 거의 안 되던 것들 되게 만든 수준의 결과가 나왔네요. wikitext-103에서도 attention free 모델이 20 ppl에 근접한 결과가 나왔다는 것도 놀랍습니다.

#state_space_model