sghong977 / Daily_AIML

Computer Vision, Deep Learning, 그외 MLOps 찍먹 등. 매일 새롭게 배운 것을 정리합니다.
0 stars 0 forks source link

[논문 리뷰] Structure and Content-Guided Video Synthesis with Diffusion Models #37

Open sghong977 opened 3 months ago

sghong977 commented 3 months ago

LDM은 먼저 읽자 https://kimjy99.github.io/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0/ldm/


https://bytez.com/docs/arxiv/2302.03011/paper

Video Editting

sghong977 commented 3 months ago

e [14], v parameterization [46]?

이 논문에서도 v-parameterization을 사용한다.

sghong977 commented 3 months ago

모델 구조

기본

Spatio-temporal Latent diffusion

image

Structure, Contents

학습

이미지와 비디오 사용량도, batch size도 어마어마해서... 직접 학습할일은 없겠지만.. 한번 보자

  1. stable diffusion의 pretrained model 가져와서 initialize
  2. CLIP text embedding이 아닌 CLIP image embedding을 condition으로 사용하도록 15000 iter finetuning. 이때는 이미지만 사용해서 학습
  3. temporal connections 연산 추가해서 이미지,비디오에 대해 모두 학습. 75000 iter.
  4. structure condition도 추가해서 학습하는데, ts=0으로 사용. 25000 iter
  5. ts를 0~7사이로 uniformly 랜덤하게 뽑아서 10000 iter 학습.

그래도 depth 모델은 학습 따로 안하고 있는거 그대로 써서 다행이다..

sghong977 commented 3 months ago

코드 봤는데 별로.. 사용할수 있는 형태가 아님

다른 논문들도 슥 보자

sghong977 commented 3 months ago

ControlVideo

Info

시간