Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 442 Bytes

230516 SoundStorm.md

File metadata and controls

7 lines (4 loc) · 442 Bytes

https://arxiv.org/abs/2305.09636

SoundStorm: Efficient Parallel Audio Generation (Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi)

mask 기반 nonautoregressive audio generation. TPUv4에서 30초 분량의 오디오를 2초 정도에 생성할 수 있다고 하는군요. 스크립트를 사용해서 대화를 생성하는 건 꽤 신기하네요.

#non-autoregressive #audio_generation