Fig.1처럼, driving frame (주어지고, 이 비디오의 인간 동작을 따라해야한다는 의미)과 source image s(실제 옷같은 모습을 generator해야함)이 주어졌을때, 최종 frame 을 generator하는게 이 논문의 주제.
즉, s의 appearance로 driving frame의 동작(pose-guided)을 그대로 따라하도록 만드는 것임(Fig.1)
그래서, 이 연구는 " image-to-image" based
이전연구와 달리, 정확한 pose를 평가한다음 이를 key삼아 generator! 하고 고퀄리티의 driving frame를 따라하도록...
다시 언급하지만 여기서 기본은 source image s를 deform하는것이다.!!! 여기에 변형할때, 각각의 driving frame에 존재하는 인간 Pose들을 적용하는것!~!!!!!!!
Fig2(a)는 이를 설명함.
Fig2(a)같은 과정은
이전 standard pose-guided image generation frameworks와의 차이점은, 우리의 모델에 markovian assumptions(마코비안 가정 ??) 추가하여, 임시적이면서 일관된 비디오을 제작한다.
아마 비디오의 frame을 독립적으로 보지않고, 이전 frame(t-1)을 conditioning하여 현재 frame(t)을 generator한다는 의미로 사용~
독립적으로 본다면, 안의 인공물들이 깜박거리는 문제가 발생한다...라고..( have a lot of flickering artifacts.)
human body의 pixel과 part사이의 대응점 파악하기 위해 DensePose를 적용 > architecture to estimate correspondences between pixels and parts of the human body, in 3D.
Riza Alp Guler, Natalia Neverova, and Iasonas Kokkinos. Densepose: Dense human
pose estimation in the wild. In CVPR, 2018.
DensePose()가 적용된 initial image P(s)(>아마도 source image s를 의미한듯)와 driving video가 적용된 frame을 라 표현.
그래서, 여기서 중요한 의미는 두 인간 이미지사이의 pixel에 관한 대응점정보를 획득된다는 의미 : we obtain a partial correspondence between pixels of any two human images.
결과적으로, 이 대응되는(correspondence)정보를 이용하여, Warp(W)이 가능하다. 즉, , 그리고, 으로 정교한 그리드 기반 와핑(coarse warp grid) 계산이 가능
이 coarse warp grid는 texture transfer 와 estimate motion flow 가 가능케한다.
여기서 주의할점은 DensePose의 성능이 고퀄리티를 보장하지만, 완벽하지 않다는 것이다. 인간탐지와 인간part 미싱등등...
또 하나의 결점은 clothing에 대한 정보 부족~하다. 그러나, 이 정보는 이 연구에서 매우 주요한 key중의 하나이다. (당여히 이 연구의 목적이 옷을 잘 입혀야하니까..ㅎ)
정리하자면, 얼굴속성/몸모양/헤어정보/옷정보가 보존된(잘 추출되어서..) 이들을 정보를 이용하여 video를 generator해야함. > preserving their body shape, facial features, hair and clothing
그리고, 이 정보에 대한 warp grid estimates를 다음과 같이 재정의(또는 좀더 디테일한 설명)한다.
이는 Fig.2 (b) 에 대한 내용.
We train this component end-to-end using standard image generation losses.
정리하면, generator 는 3개의 block으로 구성
3개의 block > Fig.2 a) 참조
pose encoder
warp module
decoder
Warp module
Coarse warp grid estimate
바로 위에서 언급한것와 같이 DensePose 에 의한 coarse estimation of warp grids
여기서, 와 은 거의 유사함.
이때, 각 바디의 Part를 위해 SMPL model & DensePose 은 "UV coordinates"에서 평뜨
뜬금없이 SMPL 용어가 나왔는데, 잘 몰라서 다음 refer 참조
Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, and Michael J. Black. SMPL: A skinned multi-person linear model. ACM Transactions on Graphics (Proc. SIGGRAPH Asia), 34(6):248:1–248:16, October 2015.
https://arxiv.org/abs/1910.09139 https://github.com/zpolina/dwnet