ml-papers/papers/2023/230516 SoundStorm.md at main · rosinality/ml-papers · GitHub

https://arxiv.org/abs/2305.09636

SoundStorm: Efficient Parallel Audio Generation (Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi)

mask 기반 nonautoregressive audio generation. TPUv4에서 30초 분량의 오디오를 2초 정도에 생성할 수 있다고 하는군요. 스크립트를 사용해서 대화를 생성하는 건 꽤 신기하네요.

#non-autoregressive #audio_generation