kosakasakas / Facehack

2D入力からの3D表情転写システム
23 stars 18 forks source link

ソースのIdentityはいつどの方法で作っているのか? #7

Closed kosakasakas closed 8 years ago

kosakasakas commented 8 years ago

最初にターゲットアクターのidentity作るって言ってるけどソースはどうすんのか リアルタイムでいいのかな

iwanao731 commented 8 years ago

確かにそこは謎!ただ、Figure 1の中にOnline RGB Trackingって書いてあるし、リアルタイムでやっているんだろうと思う。

kosakasakas commented 8 years ago

彼らの前論文 ( #11 の件)を読む限り、事前のInitializeフェーズでソースとターゲット両者のIdentityを作成して、ランタイムフェーズではIdentityのうちのshapeとalbedoはシーケンス中で不変であると仮定して、expressionのパラメータだけ解いている。

今回の論文に当てはめると、

In our method, we first reconstruct the shape identity of the target actor using a new global non-rigid model- based bundling approach based on a prerecorded training sequence. As this preprocess is performed globally on a set of training frames, we can resolve geometric ambiguities common to monocular reconstruction. At runtime, we track both the expressions of the source and target actor’s video by a dense analysis-by-synthesis approach based on a sta- tistical facial prior.

と言っていて、一見ソース側のshapeとalbedoのことはnon-rigid model- based bundlingすると書いていないのでリアルタイムで解いているように読めるが、ここ以外の文脈やFigure 1を見るとIdentityをリアルタイムで解いているというふうには見えない。

そして、6章の冒頭は、

To estimate the identity of the actors in the heavily under- constrained scenario of monocular reconstruction, we intro- duce a non-rigid model-based bundling approach.

となっていて、of the actorsと言っていることからもソースのアクターもここに含まれていると思われる。 ビデオの絵も640x400くらいの解像度に見えないし、多分ターゲットと同様の方法でソースも作っているで良い気がする。

kosakasakas commented 8 years ago

あと、7章の転写のところも、

Assuming source identity αS and target identity αT fixed, transfer takes as input the neutral δSN , deformed source δS , and the neutral target δTN expres- sion.

てな感じでshapeが固定という仮定を用いているので、ソースも事前作成してランタイムでは固定ってことでよいのだと思う。

kosakasakas commented 8 years ago

モーファブルモデルで事前作成してるってことで一旦done