https://arxiv.org/abs/2211.10950
Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models (Xichen Pan, Pengda Qin, Yuhong Li, Hui Xue, Wenhu Chen)
이미지 한 장을 생성하는 것이 아니라 이미지 여러 장을 일관성 있게 생성하는 모델. 만화 같은 작업에서 text2img 모델을 쓰기 어려운 이유가 컷마다 결과물이 들쑥날쑥이기 때문이라고 하는데 그 문제와 관련되어 있다고 할 수 있겠네요. 그나저나 이런 연구를 뽀로로 데이터셋으로 하고 있었군요.
#ddpm #text2img