majiayao-roborock / slam-paper-reading

0 stars 0 forks source link

整体场景协同理解: 3D对象、布局和相机姿态的统一估计 #3

Open majiayao-roborock opened 4 years ago

majiayao-roborock commented 4 years ago

【泡泡图灵智库】 标题:Cooperative Holistic Scene Understanding: Unifying3D Object, Layout, and Camera Pose Estimation 作者:Siyuan Huang Yixin Zhu Siyuan Qi huang Ying Nian Wu Yinxue Xiao Song Chun Zhu (Dept. of Statistics, UCLA, Dept. of Computer Science, UCLA ) 来源:NIPS 2018

摘要

大家好,今天为大家带来的文章是——Cooperative Holistic Scene Understanding: Unifying 3D Object, Layout, and Camera Pose Estimation

整体三维室内场景理解是指同时恢复 i)物体包围盒,ii)房间布局,iii)相机姿态。现有的方法要么效果较差,要么只能解决部分问题。在本文中,我们提出了一个只利用一副RGB图像端到端模型,同时实时解决这三个任务。该方法的实质是通过参数化目标(如3D方框)而不是直接估计目标来提高预测效果,并通过不同模块间的协作训练而不是单独训练这些模块来提高预测效果。具体来说,我们通过几个模块的预测来参数化3D对象边界框,3D相机姿态和对象属性。提出的方法主要有两个优点:一是参数化有助于保持二维图像与三维世界的一致性,从而在很大程度上降低了三维坐标的预测方差。ii)可以对参数化施加约束,同时训练不同的模块。我们称这些约束为“协作损失”,因为它们使联合训练和推断成为可能。我们利用三维边界框、二维投影和物理约束的三种协同损失来估计几何一致性和物理上可信的三维场景。在SUN RGB-D数据集上进行的实验表明,该方法在三维目标检测、三维布局估计、三维相机姿态估计和整体场景理解等方面明显优于现有方法。

主要贡献

1、我们为3D整体场景理解任务制定了一个端到端的模型。该模型的实质是协同估计三维空间布局、三维相机姿态和三维物体边界盒。

2、我们提出了一种新的三维包围盒参数化方法,并整合了物理约束,使得这些任务能够协同训练。 

3、我们通过在2D和3D边界框之间引入一个可微分的目标函数,在2D图像平面和3D世界之间架起桥梁。

4、我们的方法明显优于最先进的方法,并且是实时运行的。

算法流程

我们的模型由两个网络组成,如图1所示: 一个全局几何网络(GGN)用于估计三维房间布局和摄像机姿态,另一个局部对象网络(LON)用于推断每个对象的属性。基于这两个网络,我们进一步建立了可微损失函数来协同训练这两个网络。

图1:模型整体框架

  1. 参数化

    我们用八个点的三维坐标代表物体的3D BBox,它由物体的位置、大小、方向参数化。另外物体的三维中点和二维中点不一样,我们用下式代表三维中点。它同时融合了目标属性和摄像机姿态,促进了两种网络的协同训练。

房屋布局采用和物体一样的参数化形式。

  1. 直接预测

如图1(a)所示,global geometry network (GGN)以单个RGB图像作为输入,并预测3D房间布局和3D相机姿态。这种设计是由这样一个事实驱动的,即三维房间布局和三维相机姿态的估计都依赖于低级的全局几何特征。GGN估计中心点,房屋大小和房屋的偏航角,以及两个旋转角组成的摄像机位姿。

同时,局部对象网络(LON)以二维图像patch作为输入。为每一个对象估计物体的属性,包括相机到物体中心点的距离,物体大,偏航角和3D中心点与2D中心点之间的偏移量。

直接估算由两个损失LGGN和LLON监督。

实际操作时,我们采用分类与回归相结合的方法来预测物体的大小和航向角。

  1. 协同估计

    心理实验表明,人类感知的场景通常依赖全局信息而不是局部细节。此外,先前的研究已经证明,人类感知特定任务涉是从多个视觉线索中作获得的。这些重要的观察结果激发了这样一种想法,即属性和属性是自然耦合和紧密结合的,因此应该协作地进行估计,在这种情况下,各个组件将相互促进。具体来说,我们提出了三种协同损失,它们共同提供监督并将2D/3D信息融合到一个物理上合理的估计中。这种合作提高了3DBBox的估计精度,保持了二维和三维的一致性,生成了一个物理上可信的场景。

3.1 3D BBox损失

由于GGN和LON都没有直接针对3D边界框的最终估计精度进行优化,直接通过GGN和LON进行学习显然是不够的,因此需要额外的正则化。为了实现这一目标,我们提出了关于其8个角的3D边界盒损失:

3.1 2D投影损失

除了三维边界框的三维参数化外,我们进一步增加了二维投影损失的一致性,从而保持了图像平面上的二维边界框与世界坐标上的三维边界框之间的一致性。具体地,我们将3D到2D投影的学习目标制定为:

3.1 物理损失

在现实世界中,三维物体与房间布局不应相互交叉。为了生成一个场景的物理上合理的3D估计,我们整合了物理损失,惩罚了3D对象和3D房间布局之间的物理冲突:

主要结果

    在SUN RGB-D数据集上,我们只使用RGB图像作为输入。图2显示了一些定性结果。

图2

房屋布局和3D 检测结果:

位姿估计的结果:

Abstract

Holistic 3D indoor scene understanding refers to jointly recovering the i) objectbounding boxes, ii) room layout, and iii) camera pose, all in 3D. The existingmethods either are ineffective or only tackle the problem partially. In this paper,we propose an end-to-end model that simultaneously solves all three tasks in realtime given only a single RGB image. The essence of the proposed method is toimprove the prediction by i) parametrizing the targets (e.g., 3D boxes) instead ofdirectly estimating the targets, and ii) cooperative training across different modulesin contrast to training these modules individually. Specifically, we parametrizethe 3D object bounding boxes by the predictions from several modules, i.e., 3Dcamera pose and object attributes. The proposed method provides two majoradvantages: i) The parametrization helps maintain the consistency between the2D image and the 3D world, thus largely reducing the prediction variances in3D coordinates. ii) Constraints can be imposed on the parametrization to traindifferent modules simultaneously. We call these constraints "cooperative losses" asthey enable the joint training and inference. We employ three cooperative lossesfor 3D bounding boxes, 2D projections, and physical constraints to estimate ageometrically consistent and physically plausible 3D scene. Experiments on theSUN RGB-D dataset shows that the proposed method significantly outperformsprior approaches on 3D object detection, 3D layout estimation, 3D camera poseestimation, and holistic scene understanding.

majiayao-roborock commented 4 years ago

代码: https://github.com/thusiyuan/cooperative_scene_parsing Screenshot from 2020-02-19 15-03-08

小试牛刀