NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

論文へのリンク

[arXiv:2003.08934] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

著者・所属機関

Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng

UC Berkeley
Google Research
UC San Diego

投稿日時（YYYY-MM-DD）

2020-05-19

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

多視点から取得した画像を合成する課題に対して, 本論文では連続的な5次元の表現を表すパラメータを直接最適化する手法を提案した.

3. 技術や手法の"キモ"はどこにある？

3.1 Neural Radiance Field Scene Representation

連続的な視点を5次元のベクトル関数として表現する. 関数の入力には3次元上での座標と2次元での極座標角度を使用して, RGBの値cと体積密度σを出力する.

実際には角度に関しては3次元直交系での単位ベクトルで表現する. 後は座標と角度の入力から目的となるRGB値と密度σを出力できるMLPを最適化していく. これは<img src= "https://render.githubusercontent.com/render/math?math=%5Clarge+%5Ctextstyle+F_%7B%5CTheta%7D%3A%28%5Cmathbf%7Bx%7D%2C+%5Cmathbf%7Bd%7D%29+%5Crightarrow%28%5Cmathbf%7Bc%7D%2C+%5Csigma%29" alt="F_{\Theta}:(\mathbf{x}, \mathbf{d}) \rightarrow(\mathbf{c}, \sigma)">を行うことに等しい.

多視点からの一貫性を保つために, 密度σは位置xのみから予測を行う一方, RGB値cに関しては位置xと角度dから予測を行うようにする.

このため最初に密度σの予測をした跡でRGB値cの予測をするようにする. まずは3次元直交系の座標を入力に, 8層の線型結合層を使用して密度σと256次元の特徴ベクトルを出力する. 出力された特徴ベクトルと視点の角度を結合して, 追加の4層の線型結合層を使用して, 視点の角度に依存するRGB値を出力する.

以下の図を見ると, 異なる視点から同じ領域がどのように変化するのかを示しており, 光の反射具合をうまく表現できていることが分かる.

また位置xのみ依存するように学習を行わなかった場合, うまく復元できていないことが分かる.

shimopino / papers-challenge