【2018】Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network

ざっくり言うと

2Dのinput image(顔の画像)から目、鼻、頬等の場所の特定(Face Alignment)と3次元で顔を再構築(3D Face reconstraction)は顔(表情関連の)のAIの基礎をなす最も大事な技術のうちの一つである。この論文で紹介されている、AIは従来の常識的な方法とは画一した方法でFace Alignmentと 3D Face reconstructionを行う。その結果、従来のAIより高い精度でFitできるほか、計算時間も1枚の画像につき10msを下回る。この方法を用いると100fps(Frame per seconds)のムービーでもFitできる。

キーワード

Face Alignment 3D Face Reconstruction

1. 情報

論文リンク

http://openaccess.thecvf.com/content_ECCV_2018/papers/Yao_Feng_Joint_3D_Face_ECCV_2018_paper.pdf

著者

Yao Feng

投稿日付

2018

2. 先行研究と比べてどこがすごい？

今までで最も良いと言われていえるAIと比較して Face Alignment : 27%も精度上昇 3D Face reconstruction : 28.7％も精度上昇計算時間 : 従来のAIは35ms ~ 70msもかかっている一方で本論文で報告されているAIは10msで計算可能

3. 技術や手法のキモはどこ？

従来のAIの方法：3Dの顔の表現のモデルとして一般的に3D Morphable Model(3DMM)が用いられて、これまでのComputer visionによる取り組みはこの3DMMの係数を以下にうまく求めるかに注目して作られていた。この論文のAI：3D Faceを従来のように3DMMで表現する方法を廃棄して、UV空間で表現するように一新した。その結果、AIのネットワークをシンプルになり、パラメーターの数が減るだけでなく、精度も上昇した。

4. どうやって有効だと検証した？

2D の顔画像と、顔の3D情報を同時に実験的に計測したデータセットである(300W-LP)を用いて学習し、テストデータには同様のデータセットである(AFLW2000-3D , AFLW-LFPA , Florence)を用いている。検証方法は2Dの画像からFace Aliment , 3D face reconstructionを計算し、実験で計測された3Dのpositionとどれだけ差があるのか検証している。検証の際のloss関数はMSEである。(ただし、画像の解像度による誤差(非常に解像度が良い画像ではちょっとのずれでも大きなPixのずれとしてとらえられてしまう)を減らすため, figure sizeで規格化されている)

5. 議論はある？

特になし。

6. 次に読むべき論文は？

7. 実装の詳細

https://github.com/YadiraF/PRNetにコードがある

8. データセット

300W-LP、AFLW2000-3D , AFLW-LFPA , Florence

9. 結果の詳細

Sec.2に同じ

雑感&メモ

顔認識系のAIは基本的にFace Alignmentか3D reconstructionを用いている。しかがってこの論文が発表される前の顔認識系のAIの中でFace Alignmentか3D reconstructionの部分だけこの論文のAIに変更するだけで実装が高速化するかも、、、(そんな単純ではないと思うが、、、)

karakuri-ai / paper-readings