Open HandsomeMrli opened 5 days ago
根据paper中的说法,根据eventVot数据集进行训练,但是这个数据集只有Event数据,那么Teacher Transformer网络训练过程中的RGB Frame数据是怎么获得的
@HandsomeMrli 感谢关注。Event stream 可以堆叠为 Event image,结合 Event Voxel 进行训练。这里看做是 multi-view 的设定。
根据paper中的说法,根据eventVot数据集进行训练,但是这个数据集只有Event数据,那么Teacher Transformer网络训练过程中的RGB Frame数据是怎么获得的