wenyuqing / panacea

[CVPR2024] Official Repository of Paper "Panacea: Panoramic and Controllable Video Generation for Autonomous Driving"
https://panacea-ad.github.io/
Apache License 2.0
132 stars 3 forks source link

请问可以通过这种数据生成方式得到连续视频每一帧中3d车辆的3d bbox吗?是否可以通过这种方法构造带有label的数据集? #1

Closed laqangela closed 6 months ago

wenyuqing commented 7 months ago

您好,3d bbox 可以通过模拟器生成,我们的方法是可以根据提供的3d bbox 生成连续视频的每一帧,从而构造出带有label的数据集。

laqangela commented 7 months ago

谢谢您的回答,不知道我的理解是否正确:使用真实视频数据集或者模拟器(如carla)得到的视频数据,包括3d bbox,以及文本提示,去训练模型。推理的时候,输入的是一段bev layout的序列和文本prompt,输入的bev layout序列的长度就是生成的视频的长度是吗? 在训练中,如何保证图片中车辆的位置布局不变?是否可以像《UniSim: A Neural Closed-Loop Sensor Simulator》那样对车辆的颜色、位置做编辑呢? 感谢回复!

wenyuqing commented 7 months ago

是的,输入的bev layout序列的长度就是生成的视频的长度。我们通过controlnet的空间控制能力来使生成的图片和布局一一对应,在推理时可以通过text修改车辆颜色,通过layout修改位置。

laqangela commented 6 months ago

谢谢您的回答!请问数据集和代码您有计划发布吗~

wenyuqing commented 6 months ago

您好,我们后续做完更多验证实验之后会发布我们的合成数据集以及代码,感谢您的关注!