sghong977 / Daily_AIML

Computer Vision, Deep Learning, 그외 MLOps 찍먹 등. 매일 새롭게 배운 것을 정리합니다.
0 stars 0 forks source link

[논문 리뷰] Semantically Consistent Video Inpainting with Conditional Diffusion Models​ #36

Open sghong977 opened 2 months ago

sghong977 commented 2 months ago

Semantically Consistent Video Inpainting with Conditional Diffusion Models​

sghong977 commented 2 months ago

Intro 전개

기존 VI 관점의 문제 3가지를 반박하면서 시작한다. 실제로 VI 하면서 굉장히 의아했던 부분을 모조리 지적하고 있기에 상당히 흥미로운 논문

  1. 기존에는 masked region을 다른 프레임 정보로 채우겠다는 맥락이었으나, 이 관점 자체가 잘못되었다고 지적
    • 기존에는 저 관점에서 flow based or attention based로 풀었다
    • 이 관점이 잘못된 이유는, 실제 많은 inpainting application에서는 occluded region이 다른 픽셀에서 안나타난다 -> 현재 내가 풀고 있는 것도 마찬가지로, object를 계속 가려놓은 상황
  2. 또한, 기존 인페인팅들이 "semantic"을 overlook했음을 지적.
    • 아래 그림에서, 네모칸 안으로 진입 / 몇초 뒤 나가는 자동차가 있는데, inpainting task에서는 움직이는 자동차를 추론해야한다는점
  3. ill-posed problem이라 occluded region에 대한 generator output이 다양한데, 이게 평가하는데에 있어서도 반영 가능해야한다는 지적 image

이 논문 contribution?

  1. present a framework for using conditional video diffusion models for video inpainting
    • to learn a conditional distribution over possible inpaintings given the observed context
  2. long video inference 방법 제안
    • VDM 대부분이 16프레임 기준이라 이거 넘어가면 sliding window쓰는데, 결과가 구렸음

Related Works

내가 놓친 논문 있나 보자

  1. VI; 이 분야에서 딥러닝 처음 쓴게 2019년도 논문이라서 예전건 잘 모르겠음

    • optical flow 활용
    • Temporally coherent completion of dynamic video (ACM 2016)
    • Deep flow-guided video inpainting. (CVPR 2019)
    • Deep video inpainting (CVPR 2019)
    • Flow-edge guided video completion (ECCV 2020)
    • self attn: STTN(ECCV 2020), FuseFormer (ICCV 2021)
    • Onion-peel networks for deep video completion (OPN) ICCV 2019; 이건 처음봄
    • Copy-and-paste networks for deep video inpainting (ICCV 2019); 이것도 처음..
    • flow + attn 같이 쓴 것: E2FGVI, FGT, ProPainter => 이 논문들이 요즘 SOTA들
    • diffusion 사용한 논문들
    • AVID: text input 같이 받아서 user intervention이 필요함을 지적 (CVPR 2024)
    • FGDVI: 이 연구와 가장 유사하다고 했음.
      • optical flow 사용해서 diffusion step 반으로 줄이는게 contribution이었던 논문인데 이게 E2FGVI대비 10배이상 느림..
  2. Diffusion Model을 활용한 Image inpainting 모델들

    • 아래 두가지로 나뉘는데, 이 논문은 후자인 conditional diffusion을 사용한다
    • using an unconditional diffusion model; 샘플링 과정에서 heuristic adjustments를 거치는 접근법
    • Repaint: Inpainting using denoising diffusion probabilistic models. (CVPR 22)
    • Towards coherent image inpainting using denoising diffusion implicit models (ICML 23)
    • explicitly train a conditional diffusion model; 학습이 잘 되었다면, conditional distribution에서 정확한 샘플링을 하도록하는 접근법
    • Palette: Image-to-image diffusion models (SIGGRAPH 22)
    • Adding conditional control to text-to-image diffusion models. (ICCV 23, ControlNet논문)

diffusion을 잘 모르겠다. conditional diffusion과 unconditional diffusion의 차이를 좀 찾아보고 논문으로 다시 돌아오자

Preliminary

Conditional Diffusion Model

글쓰다가 날려서 기분 안좋음.. 걍 이거 읽으면 된다 image

모델은 기본적으로 4D UNet 구조, relative positional encoding

sghong977 commented 2 months ago

Long Video 이슈

image


Long Video 약간 바꾼 정의

Harvey et at. 정의 약간 바꿔서, 이 논문에서 condition / uncondition에 mask 여부로 나누는게 하나의 contribution이다. image

sghong977 commented 2 months ago

모델 설명

학습

image

Q. 그러면 이거 맞는건가? diffusion 몰라서 헷갈림


4.4

4.5 Sampling Schemes

sghong977 commented 2 months ago

"The test sets we use, along with code for processing the original BDD100K dataset and generating masks, will be released upon publication." -> 데이터 처리 코드만 공개하는건지 논문 코드도 공개하는건지... 아직 깃 레포 없음

실험 & 결과

데이터셋

개요

디테일 설명

또다른 데이터셋: 다른 태스크를 위해

오브젝트 제거와 더하는 것 2가지 태스크를 위해 각각 다른 데이터셋을 정의함.

자동차 움직이는 semantic까지 생성 가능함

image

image

sghong977 commented 2 months ago

갑자기 드는 생각...

sghong977 commented 2 months ago

샘플러 저거 논문 봐야겠다 뭔지 모름 https://wikidocs.net/233896#heun image