e4exp / paper_manager_abstract

0 stars 0 forks source link

Unsupervised Learning of Depth and Depth-of-Field Effect from Natural Images with Aperture Rendering Generative Adversarial Networks #592

Open e4exp opened 2 years ago

e4exp commented 2 years ago

2Dの自然画像から3Dの世界を理解することは、コンピュータビジョンやグラフィックスの基本的な課題です。 最近では、データ収集に有利な教師なし学習法が注目されている。 しかし、一般的な手法では、学習の制限を緩和するために、視点の分布(様々な視点の画像を含むデータセットなど)や物体の形状(対称的な物体など)を仮定する必要があります。 例えば,非剛体の物体や,同じような視点から撮影された画像(花や鳥の画像など)への適用には課題が残る. これらのアプローチを補完するために、我々は、GANの上にアパーチャレンダリングを装備し、ラベルのない自然画像の深さと被写界深度(DoF)効果を学習するフォーカスキューを採用したアパーチャレンダリング生成的敵対ネットワーク(AR-GAN)を提案する。 また、教師なし設定による曖昧さ(滑らかな質感とピンボケの曖昧さ、前景と背景の曖昧さ)を解消するために、多様なDoF画像を生成しながら実画像の分布を学習することができるDoF混合学習を開発しました。 さらに、学習の方向性を導くために、中心となる焦点を事前に設定することを考案しました。 実験では、花、鳥、顔画像などの様々なデータセットでAR-GANの有効性を実証し、他の3D表現学習GANに組み込むことで移植性を示し、浅いDoFレンダリングへの適用性を検証した。

e4exp commented 2 years ago

image

1. はじめに

自然界の画像は,3Dの世界を2Dで投影したものです。 自然画像から3次元の世界を理解するという逆問題への取り組みは,コンピュータビジョンやグラフィックスの基本的な課題である。 この課題は、ロボット工学、コンテンツ制作、写真編集など、さまざまな分野で応用されているため、活発に研究されています。 この課題に対する直接的な解決策は、2Dと3Dのデータペアやマルチビューの画像セットを用いて、教師ありの方法で3D予測器を学習することです。 しかし、そのようなデータを得ることは、しばしば実用的ではなく、また時間もかかります。 この問題を解決するために、シングルビューの画像から3D表現を学習することが試みられています。 しかし,このような非対称性のために,物体の位置を調整したり,背景から標的物体を抽出したりするために,2Dキーポイント[56, 25]や2Dシルエット[18, 6, 36, 14]などの補助的な情報を必要とする研究がある. 他の研究では,再構成のための手がかりを得るために,あらかじめ定義されたカテゴリ固有の形状モデル(3DMM[3]やSMPL[40]など)を必要とした[24, 63, 12, 50, 51]. しかし,補助情報の収集には手間のかかるアノテーション作業が必要であり,また,形状モデルは準備コストがかかり,適用対象が限定されるという欠点がある.

これらの欠点を解消するために、教師や形状モデルを追加せずに単視点画像から3D表現を学習する完全教師なし学習法が考案されている。 これは厳しい設定ではあるが,先行研究では,視点分布(様々な視点画像を含むデータセットなど)[44, 54, 46]や物体形状(対称的な物体など)の仮定を課すことで,この課題に取り組んでいる[67]. 1 つ目の仮定は、多様な視点画像をサンプリングして 3D 表現を学習するために必要である。 また,鏡像のペアを用いてステレオ再構成を行うためには,第二の仮定が必要である. これらの仮定は、特定のクラスのオブジェクト(例えば、人間の顔)に対しては実用的であるが、いくつかのオブジェクトはこれらの仮定を満たさない。 例えば、非剛体の物体や、似たような視点で撮影された画像(花や鳥の画像など)には、これらの手法を適用することは困難です。

本研究では、これまでの成果に矛盾することなく適用範囲を広げるために、これまでのディープジェネレーティブモデル(上記を含む)では積極的に利用されていなかった、写真に内在する補完的なキューを考慮する。 特に、フォーカスキューに着目し、言い換えれば、デフォーカス処理における学習深度1と被写界深度(DoF)効果を考慮しています。 具体的には、視点分布に仮定を置く代わりに、DoF分布(様々なDoF画像を含むデータセット)に仮定を置き、図1に示すように、単一DoF画像(学習インスタンスごとに単一のDoF設定のみを持つ画像)の集まりから、3D表現(特に深度とDoF効果)を学習することを試みる。 これを実現するために、我々は、GANの上にアパーチャレンダリング(例えば、ライトフィールドアパーチャレンダリング[53])を装備した、アパーチャレンダリングGAN(AR-GAN)と呼ばれる新しい生成的敵対的ネットワーク(GAN)ファミリー[15]を提案する。 具体的には、AR-GANは、最初にランダムなノイズから深層DoF画像と深度のペアを生成し、生成された深層DoF画像と深度から浅層DoF画像をアパーチャレンダリングによってレンダリングする。 この仕組みにより、光場に光学的な制約がある仮想カメラを用いて、様々なDoF画像を合成することができます。 AR-GANを単一のDoF画像を用いて教師なしで学習させる場合、滑らかな質感とピンボケの曖昧さ、前景と背景の曖昧さという2つの問題があり、これらの関係を明示的に監督することができないため、自明ではない。 1つ目の課題に対しては、様々なDoF画像を生成しながら実画像の分布を学習することができるDoF混合学習を導入します。 この学習により、生成された画像(深いDoF画像と浅いDoF画像)が実画像分布にあることが保証され、深いDoF画像と浅いDoF画像をつなぐ元となる深度の学習が容易になる。 2つ目の問題については、焦点の合った画像を考えたときに、中央の物体に焦点が合うという傾向が観察されたことに基づいて、中央に焦点を合わせやすくする一方で、周囲は焦点面の後ろになるように誘導する、中央焦点の事前処理を課しています。 実際には、学習の方向性を決めるために、トレーニングの最初にのみこの事前情報を採用します。

AR-GANの有効性を評価するために、まず、花(Oxford Flowers [45])、鳥(CUB-200-2011 [60])、顔(FFHQ [29])のデータセットを含む多様なデータセットで、比較実験とアブレーション実験を行った。 AR-GANの重要な特性はその移植性であり、我々はAR-GANを他の3D表現学習GAN(特にHoloGAN[44]とRGBD-GAN[46])に組み込むことで検証した。 AR-GANのもう一つの重要な特性は、学習後に、ランダムなノイズから、深いDoF画像と浅い奥行きのタプルを合成することができることです。 我々はこの特性を利用して浅いDoFレンダラーを学習し、その有用性を経験的に実証する。 全体として、我々の貢献は以下のようにまとめられる。