Open sghong977 opened 1 year ago
모델 이름은 Imagic. probabilistic model이라서 random seed에 따라 이미지 생성을 다양하게 할 수 있다.
제안한 모델 Imagic. 대략 이런 컨셉이다.
방금 전에 얻은 임베딩 e_opt가 input image x와 그리 유사하지 않을 수 있다. 왜냐면 딱 몇 단계만 generative diffusion process를 거쳤기 때문. 그래서 이러한 gap을 줄이기 위하여 model parameter theta를 최적화할거다.
generative diffusion model: optimized embedding e_opt를 가지고 image x를 복원하도록 학습이 되었다. 이제 우리는 이 이미지를 수정하여 target text embedding에 가까운 이미지를 만들어야한다.
하이퍼 파라미터의 변화에 따른 이미지 변화. 점점 피스타치오 케이크가 되어간다!
CLIP score. (target text alignment)와 LPIPS (fidelity to the original image).
Editability-fidelity trade-off가 당연히 존재할 수 밖에 없어서 최적의 interpolation hyper-parameter를 구하는데, 0.6~0.8 구간이 가장 적절해보인다.
널리 알려진 editing들을 해봤다.
잘 안 되는 결과도 보자.
저자가 분석하기를, 원래 적용하려는 editing이 되기도 전에 카메라의 zoom, angle이 바뀌는 failure case들이 있다고 한다.
다른 SOTA 모델과의 비교도 있다.
e_tgt로 e_opt 얻기위한 step 또한 ablation study를 진행했다. finetuning한 모델이 더 좋은데, 어쨌거나 특정 interpolation hyperparameter에서는 잘 바뀌기도 하지만 갑자기 zoom, rotation이 엄청나게 발생하는 구간이 보인다. (저자가 언급한 문제)
랜덤 시드만 변화시킨 것도 보자.
작성: 2022.10.20.
논문 링크 link.
읽은 이유
요약과 배경지식, diffusion model에 관하여
Abstract
Text-to-Image Diffusion Model?
Diffusion Model 이해하기
Input: Normal Distribution에서 샘플링한 완전 랜덤한 이미지.
랜덤시드를 iterative하게 refine하는 과정을 거쳐 최종적으로 image x_0를 복원하도록 한다. 이게 diffusion reverse process.
중간 단계의 x_t는 다음과 같다. e_t는 normal distribution을 따르는 랜덤샘플이고 alpha_t는 diffusion schedule 조정을 위한 하이퍼 파라미터이다.
각각의 refine 단계는 neural network f_theta(x_t, t) 인데, denoising objective로 학습시키는거라 f를 gaussian noise e_t로 근사시키는거다. 그래서 f와 xt로 x(t-1)를 만들게 하는 원리.
이걸 일반화하여 f_theta(x_t, t, y) 이렇게 y를 추가하기도 한다. y는 auxiliary input이며, diffusion process 과정에서 y로 conditioned된 data distribution에서 sample을 뽑도록 한다.
y는 원하는 이미지 (desired image)의 low resolution 혹은 특정 클래스 등의 조건 등을 걸어서 활용하는데, 그렇다면 desired image를 설명하는 text sequence 도 상관 없지 않을까?!
이를 위해 기존에 large language model이나 vision-language model 정보를 합치면?! 저자는 이렇게 text-to-image diffusion model이라는 아이디어를 고안한다. 텍스트 설명을 이미지로 하는 것.
이 이미지에서는 (아래에 나올) editing의 강도를 조절하는 하이퍼 파라미터값을 조금씩 변화시켜서 만든 결과라고 한다. 아무래도 자연어가 모호할 수 있다보니까 강도를 다르게 하여 여러번 돌려봐야 하는 듯?