https://arxiv.org/abs/2303.11305
SVDiff: Compact Parameter Space for Diffusion Fine-Tuning (Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris Metaxas, Feng Yang)
diffusion 모델에 대한 parameter efficient finetuning, multi subject generation, single image editing 방법이군요.
- parameter efficient finetuning의 경우 svd를 적용한 모델 weight에 대하 singular value를 조작하는 방식으로 진행됩니다.
- multi subject generation은 cutmix처럼 이미지를 잘라붙이기 + cross attention을 잘라 붙인 각 영역에 국한하는 unmix regularization을 적용해서 학습합니다.
- single image editing은 parameter efficient finetuning으로 이미지/텍스트 페어에 대해 reconstruction으로 학습하고 추론 시에는 텍스트를 수정하는 방식입니다.
parameter efficient finetuning이 인기인 시점에서 lora에 비해서도 좀 더 근본 넘치는(?) 접근인 svd를 사용한 방식이군요. 다른 문제에서는 어느 정도 효과가 있을지 궁금하네요.
#ddpm #image_editing