请问可以通过这种数据生成方式得到连续视频每一帧中3d车辆的3d bbox吗？是否可以通过这种方法构造带有label的数据集？

wenyuqing / panacea

[CVPR2024] Official Repository of Paper "Panacea: Panoramic and Controllable Video Generation for Autonomous Driving"

https://panacea-ad.github.io/

Apache License 2.0

132 stars 3 forks source link

请问可以通过这种数据生成方式得到连续视频每一帧中3d车辆的3d bbox吗？是否可以通过这种方法构造带有label的数据集？ #1

Closed laqangela closed 6 months ago

wenyuqing commented 7 months ago

您好，3d bbox 可以通过模拟器生成，我们的方法是可以根据提供的3d bbox 生成连续视频的每一帧，从而构造出带有label的数据集。

laqangela commented 7 months ago

谢谢您的回答，不知道我的理解是否正确：使用真实视频数据集或者模拟器（如carla）得到的视频数据，包括3d bbox，以及文本提示，去训练模型。推理的时候，输入的是一段bev layout的序列和文本prompt，输入的bev layout序列的长度就是生成的视频的长度是吗？在训练中，如何保证图片中车辆的位置布局不变？是否可以像《UniSim: A Neural Closed-Loop Sensor Simulator》那样对车辆的颜色、位置做编辑呢？感谢回复！

wenyuqing commented 7 months ago

是的，输入的bev layout序列的长度就是生成的视频的长度。我们通过controlnet的空间控制能力来使生成的图片和布局一一对应，在推理时可以通过text修改车辆颜色，通过layout修改位置。

laqangela commented 6 months ago

谢谢您的回答！请问数据集和代码您有计划发布吗~

wenyuqing commented 6 months ago

您好，我们后续做完更多验证实验之后会发布我们的合成数据集以及代码，感谢您的关注！