Closed laqangela closed 6 months ago
谢谢您的回答,不知道我的理解是否正确:使用真实视频数据集或者模拟器(如carla)得到的视频数据,包括3d bbox,以及文本提示,去训练模型。推理的时候,输入的是一段bev layout的序列和文本prompt,输入的bev layout序列的长度就是生成的视频的长度是吗? 在训练中,如何保证图片中车辆的位置布局不变?是否可以像《UniSim: A Neural Closed-Loop Sensor Simulator》那样对车辆的颜色、位置做编辑呢? 感谢回复!
是的,输入的bev layout序列的长度就是生成的视频的长度。我们通过controlnet的空间控制能力来使生成的图片和布局一一对应,在推理时可以通过text修改车辆颜色,通过layout修改位置。
谢谢您的回答!请问数据集和代码您有计划发布吗~
您好,我们后续做完更多验证实验之后会发布我们的合成数据集以及代码,感谢您的关注!
您好,3d bbox 可以通过模拟器生成,我们的方法是可以根据提供的3d bbox 生成连续视频的每一帧,从而构造出带有label的数据集。