Deep Image Generative Models - Githubissues

kwoongbae / deep-learning-papers

Deep Learning papers reviewed by @kwoongbae (diffusion-model, xai, nlp)

0 stars 0 forks source link

Deep Image Generative Models #9

Open kwoongbae opened 2 months ago

kwoongbae commented 2 months ago

https://www.youtube.com/watch?v=oq7lZ_JwX5M&t=2082s
융합과학기술대학원 지능정보융합학과 곽노준 교수

kwoongbae commented 2 months ago

AE, VAE, GAN..

대부분 알거나 디퓨전과 관련없어서 skip...

Stein Score Function

예를 들어서, 2차원 데이터가 있다고 할 때 각 데이터 포인트에 대해서 gradient vector를 계산.
이 vector를 score라고 부름
$\nabla_x \log{P(x)}$로 표기
x(input) 에 대한 gradient (parameter에 대해서 gradient를 계산하는 일반적인 접근방식과는 차이 존재..)

왜 score function?

에너지 기반의 모델
이 부분 잘 이해 못했음..
어쨌든 $\nablax \log{P{data}(x)} \approx \nablax \log{P{\theta}(x)}$임을 이용하여 empirical mean을 통해 기댓값 추정

DDPM

training과정과 sampling과정으로 나뉨.

training

$x_t = \sqrt{\alpha_t}x_0 + \sqrt{1-\alpha_t}\epsilon$
$\sqrt{\alpha}$를 통해 $x_0$에 대한 scale-down, 그리고 $\sqrt{1-\alpha_t}$를 통해 노이즈 $\epsilon$에 대한 scale-up
그리고 매 스텝마다 $(t, x_t)$를 Neural network에 넣어 $t$시점에서의 $\hat{\epsilon_t}$를 추정
결론적으로 $||\hat{\epsilon} - \epsilon||^2$를 줄이는 방향으로 학습

sampling

optimized된 $\theta^{*}$를 이용해서 이미지 생성

developed된 디퓨전 모델들

DDIM: step을 줄이는 방향으로 발전된 DDPM
LDM(Latent Diffusion Model): 일반 디퓨전으로 학습하면 100x100차원의 데이터를 학습해야함 -> 계산량 증가. 따라서 AE의 encoder/decoder로 latent vector를 추출한 후 디퓨전 과정 진행 (+어텐션 가이드)

Guidance

Contrast learning (CLIP, text + image)
Control Net
Dream Booth

kwoongbae commented 2 months ago

Score function이란?

데이터 x의 분포를 기준으로, 가능도가 높은 방향으로 gradient가 향하도록.
$\nabla_x \log{P(x)} = S(\theta | \ x) = \frac{\partial}{\partial \theta} \log f(x; \theta)$
log-likelihood의 1차 미분값
log를 취하고 미분을 하기 때문에, x와 독립적인 항을 고려안해도 된다는 장점이 있음.

Score Matching

Fisher divergence의 최소화 과정
true score function과 estimated score function 간의 차이를 줄이는 것이 목적
$\frac{1}{2} E{P{data}}[||\nablax \log{P_{data}}(x) - \nablax \log{P{\theta}(x)}||^2_2]$