qintonguav / ParkingE2E

GNU General Public License v3.0
310 stars 60 forks source link

BevQuery这里的 camera feature和 target feature的融合代码有问题? #9

Closed 792864625 closed 4 weeks ago

792864625 commented 1 month ago

image

这个位置应该改成image_feature吧,不然相当于是后面traj pred的网络完全没用到图像特征,只用target point的坐标强行拟合到训练集上去的

792864625 commented 1 month ago

另外76行应该是 bev_feature = bev_feature.permute(0,2,1) 吧,不然后面traj decoder输入维度也完全不对啊,这模型不是在强行收敛么,这应该不是你们论文源码吧。。。。。

ChauncyLeee commented 4 weeks ago

@792864625 您好,非常感谢您的关注。正常的网络模型应该不存在强行收敛的问题。我们之前做过一些去除图像特征、轨迹解码的消融实验,由于历史版本管理的疏忽,导致开源代码进行优化删减时确实引入了一些问题。我们近期会检查问题,并提供对应的训练模型。感谢并欢迎您的持续关注和建议!

ChauncyLeee commented 4 weeks ago

感谢您提供的建议,我们已经修正了相关的代码并提供了新的预训练模型。

792864625 commented 3 weeks ago

大佬,方便给一份训练数据嘛?我这边自己的数据训练不收敛,想通过您的数据验证下自己的数据问题。

ChauncyLeee commented 3 weeks ago

请问您这边数据训练不收敛具体表现是什么呢?关于训练数据,请问您是自己采集的数据吗?在代码的README中提供了一个ros的bag包可以生成训练数据做测试。

792864625 commented 3 weeks ago

嗯嗯是的,我是自己采集的数据,然后用我们avm轨迹算法生成的GT,可视化后看上去轨迹是没问题的。不收敛的表现是: (1)训练的结果总有一个倒车方向预测的是反的,比如说向左后倒车,轨迹被预测成右后。但另一个方向的预测是对的。 (2)如果我用单个倒车方向进行训练(不管是左倒车,还是右倒车),预测的结果也是对的。 (3)我用您提供的20个视频进行训练,两个方向的预测都是对的。 对于第一个问题我现在实验中用了focal loss的话,效果会好一些。所以我比较困惑是不是我的数据分布存在问题。但是我把轨迹数据分布可视化看了下,好像和您的也差不多。横轴是0-1200个分类,纵轴是统计量 image

ChauncyLeee commented 2 weeks ago

如果在训练数据上推理也出出现预测反向,您可以确认一下代码和自采数据中涉及到的坐标系定义是否一致,以及目标点给定是否正确。 关于训练数据,如果您这边方便提供邮箱的话,我可以提供一些数据方便您调试。

792864625 commented 2 weeks ago

感谢大佬,792864625@qq.com

ChauncyLeee commented 2 weeks ago

已发送,请注意查收。