작성: 2022.10.20.
논문 링크 link.

읽은 이유

DeepMonitor link 의 top recent (1 month) 기준 트렌드 3위.
1위에 있는 Human diffusion model (MDM)도 마찬가지로 diffusion model을 쓰고 있어서. 이게 유행인가? 왜 유행이지? 뭐가 특별한가...? 궁금함.
Image Editing. MDM도 editing이 가능했다.
MDM에서는 모션이었으니까 reverse process를 맞추기 위해 model output이 그 이전 상태를 맞추도록 하였기에 시간에 따라 모션이 바뀌는걸 diffusion process로 본건데, 과연 이 논문에서는 어떻게 정의했을까?

요약과 배경지식, diffusion model에 관하여

Abstract

분야: Text-conditioned image editing. 요즘 많은 관심을 받는다.
- 그러나 기존 방법들은, 문제 1. editing 방법이 한정되어있다. (예: style transfer, object overlay 등, 혹은 특정 domain의 이미지나 합성된 이미지에만 적용이 가능하다거나)
- 문제 2. 혹은 auxiliary input을 필요로 한다. 수정할 위치를 마스킹하는 이미지가 필요하다거나, 같은 subject에 대해 여러 이미지가 필요하다거나 original image에 대한 텍스트도 필요하다던가 등)
- 하지만 이 논문의 특별한 점! 복잡한 text-guided semantic editing 을 구글이 해냈습니다.
- original charateristic을 잘 유지하면서도 복잡한 editing이 될것인가?!
입력: single image, desired text. 아래 이미지를 보면 염소와 고양이 중에서 염소만 점프를 하도록 만들수도 있다!
How?
- pretrained text-to-image diffusion model을 활용 -> input image+target text와 관련된 텍스트 임베딩 생성
- finetuning diffusion model: image-specific appearance를 포착함

Text-to-Image Diffusion Model?

요즘 high-quality image synthsis를 위한 Generative Model의 SOTA라고함.
주로 text prompt가 주어지면 이에 상응하는 이미지를 합성했음.
이 논문은 새롭게 이미지를 합성하는 것이 아니라 기존 이미지를 수정하도록함

Diffusion Model 이해하기

Input: Normal Distribution에서 샘플링한 완전 랜덤한 이미지.
랜덤시드를 iterative하게 refine하는 과정을 거쳐 최종적으로 image x_0를 복원하도록 한다. 이게 diffusion reverse process.
중간 단계의 x_t는 다음과 같다. e_t는 normal distribution을 따르는 랜덤샘플이고 alpha_t는 diffusion schedule 조정을 위한 하이퍼 파라미터이다.
각각의 refine 단계는 neural network f_theta(x_t, t) 인데, denoising objective로 학습시키는거라 f를 gaussian noise e_t로 근사시키는거다. 그래서 f와 xt로 x(t-1)를 만들게 하는 원리.
이걸 일반화하여 f_theta(x_t, t, y) 이렇게 y를 추가하기도 한다. y는 auxiliary input이며, diffusion process 과정에서 y로 conditioned된 data distribution에서 sample을 뽑도록 한다.
y는 원하는 이미지 (desired image)의 low resolution 혹은 특정 클래스 등의 조건 등을 걸어서 활용하는데, 그렇다면 desired image를 설명하는 text sequence 도 상관 없지 않을까?!
이를 위해 기존에 large language model이나 vision-language model 정보를 합치면?! 저자는 이렇게 text-to-image diffusion model이라는 아이디어를 고안한다. 텍스트 설명을 이미지로 하는 것.

이 이미지에서는 (아래에 나올) editing의 강도를 조절하는 하이퍼 파라미터값을 조금씩 변화시켜서 만든 결과라고 한다. 아무래도 자연어가 모호할 수 있다보니까 강도를 다르게 하여 여러번 돌려봐야 하는 듯?

Method: Imagic!

모델 이름은 Imagic. probabilistic model이라서 random seed에 따라 이미지 생성을 다양하게 할 수 있다.

간단 설명

text embedding optimization. input image와 유사한 이미지를 만들도록 할 수 있는 텍스트 임베딩을 최적화. 다시 말해, target text 임베딩이 있잖음? 이거랑 가까우면서도 주어진 이미지와 가장 매칭이 되는 텍스트 임베딩을 구하는 것임.
그리고 pretrained diffusion model을 finetuning할건데, 이때 조건으로 optimized embedding을 준다. input image를 더 잘 복원하도록 학습.
최종적으로는 target text embedding과 optimized embedding을 linear interpolation하여 -> input image fidelity와 - target text가 가장 잘 맞춰지는 지점을 구하는 것이다.

제안한 모델 Imagic. 대략 이런 컨셉이다.

Imagic!

input: image x, target text (desired edit)
Output: x의 디테일 특성을 최대한 보존하면서 given text를 충족하는 것.
semantic manipulation을 위해 diffusion model의 텍스트 임베딩 레이어를 활용한다.
그래서, GAN에서와 유사하게 generative process를 거쳐서 input image를 reconstruction하도록 한다. 그리고 latent representation을 조작하여 edit image를 얻음.

1. Text Embedding Optimization.

target text -> text encoder 거침 -> e_tgt 생성
- "Exploring the limits of transfer learning with a unified text-to-text transformer." 논문
e_tgt 학습의 objective function은 아래와 같다. theta는 pretrained diffusion model 파라미터, e는 가우시안 노이즈. x는 이미지이며 x_t는 이미지의 noisy version이다. (위에 수식 1 참고)
해당 objective를 몇번만 돌려서 초기 e_tgt과의 거리가 너무 멀어지지 않게 해줘야한다. 어쨌거나 몇 단계 거치고나면 input image와 text embedding의 거리를 좁힐 수 있고, 다시말해 원래 이미지와 텍스트가 모두 담겨있을 텍스트 임베딩을 얻을 수 있다는거다. 이걸 x_opt라고 한다. 이정도로 어느정도 가까운 거리가 되어야 의미있는 linear interpolation이 가능하다. (뒷 단계에서 할 것임)

2. Model Finetuning

방금 전에 얻은 임베딩 e_opt가 input image x와 그리 유사하지 않을 수 있다. 왜냐면 딱 몇 단계만 generative diffusion process를 거쳤기 때문. 그래서 이러한 gap을 줄이기 위하여 model parameter theta를 최적화할거다.

방금 봤던 수식 2와 동일한 objective function을 사용하여 최적화 할것이다. 대신에 지금은 모델을 업데이트 하기 위함이므로 e_opt는 고정시킴. 이미지를 임베딩 e와 잘 맞도록 하기 위해서 auxiliary diffusion model을 병행하여 사용할 수 있다.
병행하여 사용할 수 있는 모델을 예를들면 super-resolution. 이때도 우리는 같은 reconstruction loss를 사용할 것이지만 target text embedding을 동일하게 conditioning 해야한다. super resolution을 같이 사용한다면 image x의 high-frequency detail도 보존할 수 있을 것이다.

3. Text embedding interpolation

generative diffusion model: optimized embedding e_opt를 가지고 image x를 복원하도록 학습이 되었다. 이제 우리는 이 이미지를 수정하여 target text embedding에 가까운 이미지를 만들어야한다.

How? 임베딩을 그냥 linear interpolation 한다. e_tgt와 e_opt를. 둘 사이에 비율을 어떻게 줄지는 하이퍼 파라미터로 정해야한다.
그렇게 얻어진 임베딩은 우리가 최종적으로 원하는 edited image의 representation이다. 이걸 다시 generative diffusion process를 거칠 때 condition으로 넣어서 (아까 finetuning한 모델 사용) 이미지를 생성하면 된다.
이렇게 나온 결과가 low-resolution이다. 화질을 좋게 하려면? 위에서 언급한 (generative model과 병행해서 학습했던) fine-tuned super-resolution 모델을 사용하면 (conditioned on the target text) edited image를 high quality로 만들 수 있다!

Implementation Details & Experiment

구현 디테일

코드 기반: Imagen 사용 (기존 text-to-image generative model SOTA)
- Imagen은 3가지 파트로 구성되어있는데, 1. generative diffusion model (64*64 이미지 만듦) 2. super-resolution diffusion model (64 -> 256) 3. 또다른 Super resolution 모델 (256 -> 1024)
- classifier 없이도 text-guided image를 잘 생성해냈다.
- 음... Imagen을 안 읽어서 모르겠다만 그러면 비슷한거같은데... generative model이 바로 edited 이미지를 만드느냐, 원본 이미지를 복원생성 후 수정하도록 하느냐 차이인데. 어쨌거나 원본-텍스트 linear interpolation한 임베딩을 계산한담에 그냥 diffusion model에 넣어서 이미지 새롭게 만드는거 아님? text->image diffusion process인건 동일한데 임베딩 공간에서 input image 정보와의 interpolation으로 원본보존도 잘 되게 할 수 있다는 것이 차이인듯.
Text Embedding Optimization: 64*64 diffusion model과 Adam optimizer (lr 0.001로 고정) 사용
Fine-Tuning: 방금 썼던 64*64 diffusion model 활용. (Imagen 가져와서 1500 steps 더 학습시킴)
- Super-Resolution: 동시에 학습. 마찬가지로 1500 steps, 6464 -> 256256. 참고로 256 -> 1024 만드는건 딱히 결과에 차이가 없었어서 안했다함.
위의 optimization 과정들 다 하는데 한 이미지 당 약 8분 걸린다. TPUv4 칩 2개 사용했을때 기준.
그 다음에 interpolation 단계. 아까 수식 3의 하이퍼파라미터를 0으로 두면 원본 이미지를 만들어야하고, 값이 커지면 target text에 가까워진다. 실험적으로 0.6과 0.8 정도의 값이 괜찮았다고 한다. (아래 그래프 참고)
그리고나서 저 하이퍼파라미터들로 Imagen에서 처럼 생성. (DDIM sampling이 stochastic DDPM scheme를 사용하는 것 보다 좋은 결과가 나왔다고함)

하이퍼 파라미터의 변화에 따른 이미지 변화. 점점 피스타치오 케이크가 되어간다!

CLIP score. (target text alignment)와 LPIPS (fidelity to the original image).
Editability-fidelity trade-off가 당연히 존재할 수 밖에 없어서 최적의 interpolation hyper-parameter를 구하는데, 0.6~0.8 구간이 가장 적절해보인다.

Experiment

Qualitative Evaluation

널리 알려진 editing들을 해봤다.

예시: style, appearance, color, posture, and composition
먼저, Upsplash, Pixabay의 고화질 free-to-use 이미지들을 수집하였음.
그리고나서 각 이미지들을 optimization 한다.
5가지 random seed를 적용하여 이미지들을 생성해보고, 그중에서 가장 좋은 결과를 뽑았다.
그 결과가 아래 이미지이다. 매우 잘 나오는 듯?

잘 안 되는 결과도 보자.
저자가 분석하기를, 원래 적용하려는 editing이 되기도 전에 카메라의 zoom, angle이 바뀌는 failure case들이 있다고 한다.

다른 SOTA 모델과의 비교도 있다.

e_tgt로 e_opt 얻기위한 step 또한 ablation study를 진행했다. finetuning한 모델이 더 좋은데, 어쨌거나 특정 interpolation hyperparameter에서는 잘 바뀌기도 하지만 갑자기 zoom, rotation이 엄청나게 발생하는 구간이 보인다. (저자가 언급한 문제)

랜덤 시드만 변화시킨 것도 보자.

여담

컨셉은 알겠는데 정확한 이해를 위해서는 Imagen 논문을 봐야할 것 같다. (사전지식 필요)
예를들면 generative diffusion model이 구체적으로 어떤 모델을 사용했는지, condition 주는 것은 어떻게 들어갔는지 등등

sghong977 / Daily_AIML

[논문 리뷰] Imagic: Text-Based Real Image Editing with Diffusion Models #13