Open fulfulggg opened 2 months ago
近年、テキスト駆動型の3Dシーン生成は著しい進歩を遂げています。しかし、既存のほとんどの手法は、生成モデルを用いて単一視点の画像を生成し、それらを3D空間でつなぎ合わせることでシーンを構築しています。このように各視点の画像を独立して生成する手法は、多くの場合、3Dシーンの空間的な不整合性や不自然さを招いてしまいます。この課題に対処するため、本研究では、テキスト駆動型の3D空間整合性を保持したシーン生成モデルであるSceneDreamer360を提案します。提案手法は、テキスト駆動型パノラマ画像生成モデルを3Dシーン生成の事前知識として活用し、3Dガウシアン スプラッティング(3DGS)を用いることで、複数視点のパノラマ画像全体の一貫性を確保します。具体的には、SceneDreamer360は、ファインチューニングされたPanfusionジェネレータを3段階のパノラマ拡張機能で強化し、高解像度で詳細なパノラマ画像を生成できるようにします。3Dシーン構築時には、新規の点群融合初期化手法を用いることで、より高品質で空間的に整合性の取れた点群を生成します。広範な実験により、SceneDreamer360は、パノラマ画像生成と3DGSにより、他の手法と比較して、あらゆるテキストプロンプトから、より高品質で空間的に整合性の取れた、視覚的に魅力的な3Dシーンを生成できることが実証されました。コードは\url{https://github.com/liwrui/SceneDreamer360}で公開されています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: SceneDreamer360: パノラマガウシアン splatting を用いたテキスト駆動型 3D 一貫性シーン生成
リンク: https://arxiv.org/abs/2408.13711
概要:
近年、テキスト駆動型の3Dシーン生成は著しい進歩を遂げています。しかし、既存のほとんどの手法は、生成モデルを用いて単一視点の画像を生成し、それらを3D空間でつなぎ合わせることでシーンを構築しています。このように各視点の画像を独立して生成する手法は、多くの場合、3Dシーンの空間的な不整合性や不自然さを招いてしまいます。この課題に対処するため、本研究では、テキスト駆動型の3D空間整合性を保持したシーン生成モデルであるSceneDreamer360を提案します。提案手法は、テキスト駆動型パノラマ画像生成モデルを3Dシーン生成の事前知識として活用し、3Dガウシアン スプラッティング(3DGS)を用いることで、複数視点のパノラマ画像全体の一貫性を確保します。具体的には、SceneDreamer360は、ファインチューニングされたPanfusionジェネレータを3段階のパノラマ拡張機能で強化し、高解像度で詳細なパノラマ画像を生成できるようにします。3Dシーン構築時には、新規の点群融合初期化手法を用いることで、より高品質で空間的に整合性の取れた点群を生成します。広範な実験により、SceneDreamer360は、パノラマ画像生成と3DGSにより、他の手法と比較して、あらゆるテキストプロンプトから、より高品質で空間的に整合性の取れた、視覚的に魅力的な3Dシーンを生成できることが実証されました。コードは\url{https://github.com/liwrui/SceneDreamer360}で公開されています。