Open tkuri opened 3 years ago
人間は環境を立方体/円筒/楕円などの単純な幾何学的形状(プリミティブ)の配置として視覚的に抽象化していると考えられている。そこで1枚のRGB画像からプリミティブを推定するためのロバストな推定器を提案。現実世界の3Dシーンのレイアウトを上手く抽象化することができる。
技術的なキモは不透明なシーンのためのオクルージョンを考慮した評価指標と、入力特徴に対するCuboidの勾配を分析的に導出しEnd2Endでの学習を可能にしたところ。
https://arxiv.org/abs/2105.02047
https://github.com/fkluger/cuboids_revisited
論文概要
人間は環境を立方体/円筒/楕円などの単純な幾何学的形状(プリミティブ)の配置として視覚的に抽象化していると考えられている。そこで1枚のRGB画像からプリミティブを推定するためのロバストな推定器を提案。現実世界の3Dシーンのレイアウトを上手く抽象化することができる。
技術的なキモは不透明なシーンのためのオクルージョンを考慮した評価指標と、入力特徴に対するCuboidの勾配を分析的に導出しEnd2Endでの学習を可能にしたところ。
https://arxiv.org/abs/2105.02047
Code
https://github.com/fkluger/cuboids_revisited