tjiiv-cprg / EPro-PnP

[CVPR 2022 Oral, Best Student Paper] EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation
https://www.youtube.com/watch?v=TonBodQ6EUU
Apache License 2.0
1.11k stars 106 forks source link

关于EPro-PnP-6DoF一些问题的请教。 #69

Open BoBoINVICTUS opened 1 year ago

BoBoINVICTUS commented 1 year ago

感谢您精彩的工作,最近在学习您提供的EPro-PnP-6DoF的代码时,遇到了一些困惑希望得到您的解答。 image 在train.py文件中,dim 代表的是什么?是每张图片中目标物体的中心点在相机下的x, y, z坐标吗? noc 具体指的是什么意思呢?我观察到noc 来自与 resnet_rot_head.py中的返回值x3d, 那么在train.py中, x3d = noc * dim[..., None, None]又代表什么意思呢?

Lakonik commented 1 year ago

dim is the dimension (size) of the 3D box, noc is the normalized object coordinate. So noc * dim is to recover the absolute scale of the 3d coordinates.

BoBoINVICTUS commented 1 year ago

我想尝试根据您提供的EPro-PnP-6DoF示例,将PVNet 与EPro-PnP-6DoF结合起来看看效果如何,当我在理解源码时(还是有很多不懂),大概明白了似乎只要将mote_carlo_forward()中的参数填写准确就可以。那么在该函数中这些参数的含义是什么意思呢?该如何获得这些参数呢? image 我浅薄的理解了下x3d和x2d的含义,如果不对请您指正:x3d(CAD模型中的点的三维坐标?如果是的话这个坐标的坐标系又是什么?), x2d(三维点对应到二维图像中的像素坐标?) 同时w2d和 camera 是什么意思呢?我该怎么在pvnet中获得w2d和camera这两个参数?

zhirui-gao commented 1 year ago

I also want to know the meaning of 'w2d'。 i think is the confidence of 2d-3d correspondences. But why the dimension of w2d is [bs, num_point ,2 ] ,why the last dim is 2?