https://arxiv.org/abs/2305.09636
SoundStorm: Efficient Parallel Audio Generation (Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi)
mask 기반 nonautoregressive audio generation. TPUv4에서 30초 분량의 오디오를 2초 정도에 생성할 수 있다고 하는군요. 스크립트를 사용해서 대화를 생성하는 건 꽤 신기하네요.
#non-autoregressive #audio_generation