liuyuan-pal / Gen6D

[ECCV2022] Gen6D: Generalizable Model-Free 6-DoF Object Pose Estimation from RGB Images
GNU General Public License v3.0
605 stars 75 forks source link

请教相机位姿和物体位姿的区别 #108

Open canglangzhige opened 1 year ago

canglangzhige commented 1 year ago

您好,非常感谢您将工作开源!

有几个困惑向您请教:

  1. 您将物体位姿估计问题转换为了估计参考图片与查询图片之间相对位姿的问题。请问相机的位姿和物体的位姿一样吗?估计相机位姿不是SLAM的工作吗?为什么图片的位姿就是物体的位姿?
  2. 您的这种思路是不是就是一种变种的基于模板匹配的方法?
  3. 请问进行训练的话需要什么配置的GPU?8张2080Ti 够用吗?

非常感谢!

liuyuan-pal commented 1 year ago

你好!

  1. 相机位姿相当于是相机坐标系到世界坐标系的转换,物体位姿指的是相机坐标系到物体坐标系的转换。所以只要我们定义世界坐标系等价于物体坐标系,那么他们就是一样的。
  2. 这里相当于是基于匹配的方式,但是我们的refiner可以处理没有见过的视角。
  3. 我只用了1张1080ti训练。所以8张2080ti是完全足够的。
canglangzhige commented 1 year ago

您好!

"定义世界坐标系等价于物体坐标系"是怎么做到的呢? 您使用COLMAP获得图像的位姿,这里就指定了三维重建的世界坐标系与物体坐标系重合了吗?相机坐标系应该和物体坐标系存在转换关系,是否有一个人为设置的转换矩阵? 总体来说就是:COLMAP获得图像的位姿仅仅是“图像的位姿”,是否进行了额外的操作将其变换成了“物体的位姿”?

期待您的回复。