sghong977 / Daily_AIML

Computer Vision, Deep Learning, 그외 MLOps 찍먹 등. 매일 새롭게 배운 것을 정리합니다.
0 stars 0 forks source link

[논문 리뷰] Imagic: Text-Based Real Image Editing with Diffusion Models #13

Open sghong977 opened 1 year ago

sghong977 commented 1 year ago

작성: 2022.10.20.
논문 링크 link.

읽은 이유

요약과 배경지식, diffusion model에 관하여

Abstract

image

Text-to-Image Diffusion Model?

Diffusion Model 이해하기

image

이 이미지에서는 (아래에 나올) editing의 강도를 조절하는 하이퍼 파라미터값을 조금씩 변화시켜서 만든 결과라고 한다. 아무래도 자연어가 모호할 수 있다보니까 강도를 다르게 하여 여러번 돌려봐야 하는 듯?

sghong977 commented 1 year ago

Method: Imagic!

모델 이름은 Imagic. probabilistic model이라서 random seed에 따라 이미지 생성을 다양하게 할 수 있다.

간단 설명

  1. text embedding optimization. input image와 유사한 이미지를 만들도록 할 수 있는 텍스트 임베딩을 최적화. 다시 말해, target text 임베딩이 있잖음? 이거랑 가까우면서도 주어진 이미지와 가장 매칭이 되는 텍스트 임베딩을 구하는 것임.
  2. 그리고 pretrained diffusion model을 finetuning할건데, 이때 조건으로 optimized embedding을 준다. input image를 더 잘 복원하도록 학습.
  3. 최종적으로는 target text embedding과 optimized embedding을 linear interpolation하여 -> input image fidelity와 - target text가 가장 잘 맞춰지는 지점을 구하는 것이다.

제안한 모델 Imagic. 대략 이런 컨셉이다.

image

Imagic!

1. Text Embedding Optimization.

2. Model Finetuning

방금 전에 얻은 임베딩 e_opt가 input image x와 그리 유사하지 않을 수 있다. 왜냐면 딱 몇 단계만 generative diffusion process를 거쳤기 때문. 그래서 이러한 gap을 줄이기 위하여 model parameter theta를 최적화할거다.

3. Text embedding interpolation

generative diffusion model: optimized embedding e_opt를 가지고 image x를 복원하도록 학습이 되었다. 이제 우리는 이 이미지를 수정하여 target text embedding에 가까운 이미지를 만들어야한다.

sghong977 commented 1 year ago

Implementation Details & Experiment

구현 디테일

하이퍼 파라미터의 변화에 따른 이미지 변화. 점점 피스타치오 케이크가 되어간다!

image

CLIP score. (target text alignment)와 LPIPS (fidelity to the original image).
Editability-fidelity trade-off가 당연히 존재할 수 밖에 없어서 최적의 interpolation hyper-parameter를 구하는데, 0.6~0.8 구간이 가장 적절해보인다.

image

Experiment

Qualitative Evaluation

널리 알려진 editing들을 해봤다.

image

잘 안 되는 결과도 보자.
저자가 분석하기를, 원래 적용하려는 editing이 되기도 전에 카메라의 zoom, angle이 바뀌는 failure case들이 있다고 한다.

image

다른 SOTA 모델과의 비교도 있다.

image

e_tgt로 e_opt 얻기위한 step 또한 ablation study를 진행했다. finetuning한 모델이 더 좋은데, 어쨌거나 특정 interpolation hyperparameter에서는 잘 바뀌기도 하지만 갑자기 zoom, rotation이 엄청나게 발생하는 구간이 보인다. (저자가 언급한 문제)

image

랜덤 시드만 변화시킨 것도 보자.

image
sghong977 commented 1 year ago

여담