DwNet: Dense warp-based network for pose-guided human video generation

abstract

먼저~~ 잘모르는 분야니 일단 뚜벅뚜벅 무식하게 국어책읽듯이..읽어내려가는 리뷰형태로.

Introduction

Method

Fig.1처럼, driving frame (주어지고, 이 비디오의 인간 동작을 따라해야한다는 의미)과 source image s(실제 옷같은 모습을 generator해야함)이 주어졌을때, 최종 frame 을 generator하는게 이 논문의 주제.
- 즉, s의 appearance로 driving frame의 동작(pose-guided)을 그대로 따라하도록 만드는 것임(Fig.1)
그래서, 이 연구는 " image-to-image" based
- 이전연구와 달리, 정확한 pose를 평가한다음 이를 key삼아 generator! 하고 고퀄리티의 driving frame를 따라하도록...
다시 언급하지만 여기서 기본은 source image s를 deform하는것이다.!!! 여기에 변형할때, 각각의 driving frame에 존재하는 인간 Pose들을 적용하는것!~!!!!!!!
Fig2(a)는 이를 설명함.
Fig2(a)같은 과정은
1. 이전 standard pose-guided image generation frameworks와의 차이점은, 우리의 모델에 markovian assumptions(마코비안 가정 ??) 추가하여, 임시적이면서 일관된 비디오을 제작한다.
  - 아마 비디오의 frame을 독립적으로 보지않고, 이전 frame(t-1)을 conditioning하여 현재 frame(t)을 generator한다는 의미로 사용~
    - 독립적으로 본다면, 안의 인공물들이 깜박거리는 문제가 발생한다...라고..( have a lot of flickering artifacts.)
2. human body의 pixel과 part사이의 대응점 파악하기 위해 DensePose를 적용 > architecture to estimate correspondences between pixels and parts of the human body, in 3D.
  - Riza Alp Guler, Natalia Neverova, and Iasonas Kokkinos. Densepose: Dense human pose estimation in the wild. In CVPR, 2018.
  - DensePose()가 적용된 initial image P(s)(>아마도 source image s를 의미한듯)와 driving video가 적용된 frame을 라 표현.
    - 그래서, 여기서 중요한 의미는 두 인간 이미지사이의 pixel에 관한 대응점정보를 획득된다는 의미 : we obtain a partial correspondence between pixels of any two human images.
  - 결과적으로, 이 대응되는(correspondence)정보를 이용하여, Warp(W)이 가능하다. 즉, , 그리고, 으로 정교한 그리드 기반 와핑(coarse warp grid) 계산이 가능
    - 이 coarse warp grid는 texture transfer 와 estimate motion flow 가 가능케한다.
  - 여기서 주의할점은 DensePose의 성능이 고퀄리티를 보장하지만, 완벽하지 않다는 것이다. 인간탐지와 인간part 미싱등등...
  - 또 하나의 결점은 clothing에 대한 정보 부족~하다. 그러나, 이 정보는 이 연구에서 매우 주요한 key중의 하나이다. (당여히 이 연구의 목적이 옷을 잘 입혀야하니까..ㅎ)
  - 정리하자면, 얼굴속성/몸모양/헤어정보/옷정보가 보존된(잘 추출되어서..) 이들을 정보를 이용하여 video를 generator해야함. > preserving their body shape, facial features, hair and clothing
  - 그리고, 이 정보에 대한 warp grid estimates를 다음과 같이 재정의(또는 좀더 디테일한 설명)한다.
    - 이는 Fig.2 (b) 에 대한 내용.
  - We train this component end-to-end using standard image generation losses.
3. 정리하면, generator 는 3개의 block으로 구성
  - 3개의 block > Fig.2 a) 참조
    - pose encoder
    - warp module
    - decoder

Warp module

Coarse warp grid estimate
- 바로 위에서 언급한것와 같이 DensePose 에 의한 coarse estimation of warp grids
  - 여기서, 와 은 거의 유사함.
    - 이때, 각 바디의 Part를 위해 SMPL model & DensePose 은 "UV coordinates"에서 평뜨
    - 뜬금없이 SMPL 용어가 나왔는데, 잘 몰라서 다음 refer 참조
      - Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, and Michael J. Black. SMPL: A skinned multi-person linear model. ACM Transactions on Graphics (Proc. SIGGRAPH Asia), 34(6):248:1–248:16, October 2015.
      - https://m.blog.naver.com/PostView.nhn?blogId=blogstock&logNo=221170932527&proxyReferer=https%3A%2F%2Fwww.google.com%2F
      - https://www.slideshare.net/WiMLDS_Paris/human-body-extraction-from-images-by-gl-varol-phd-student-inria-willow-team-137109674
    - 개인적으로 SMPL model & DensePose 은 찾아보니, open-source화되어 있는 case라, input/output과 개념만 잘 이해하면, 어렵지 않게 적용할수 있을듯~
    - SMPL의 역할은 아마 요런것
  - 이부분이 어려울수 있다고 언급, 그래서, UV space에서 source s와 driving frame간의 KD-tree를 이용하여 NN을 측정하여 적용
Refined warp grid estimate
- DensePose의 부적확성 & self occlusions으로 인한 문제 발생. 더욱더, 인간이 입고있는 옷(outfit)에 대한 운동성에 대해 모델화하지 않았다.
  - 이러한 문제를 위해 correction branch 도입 > 이미 앞에서 교정된 warp 언급했는데....,
    - 다음과 같음.(위의 반복)
    - warp의 차이점은 bilinear kernel 이용.
    - 이 모델은 local minimums에 빠지기 쉽기 때문에, 해결하기위해 초기화가 중요! 그래서, residual architecture를 가짐.
  - 최종적으로, residual 구조를 가진 correction branch가 이 삽입된 Warp관련 수식은

Training

위에서 언급한 markovian assumption (좀더 알아봐야할듯~ㅎ)고려한 학습
학습과정에서 video에서 4개의 frame을 sampling
- - 여기서 i는?? > as the source image s
  - i<=N, j<=(N-2) > N는 video안의 모든 frame 수
- 경험상 4개추출할 때가 temporal consistency & computational efficiency 가장 좋았다고 언급.
driving frame
GT frame
그래서, Generator는 3개 frame을 Generating~!!
- 먼저~~! 첫번재 frame
- 이 첫번재 frame을 발생시키고, 다음을 위해 이전 frame으로 정의하고 나머지 frame Generating
Loss
- pix2pixHD 모델 결합
  - adversarial loss를 위해, least square GAN 적용
    - C is the patch bases s critique
- To drive image reconstruction > feature matching & perceptual losses
  - 는 k layer의 feature e representation
total loss
- 이때 감마는 10