Event-AHU / EventVOT_Benchmark

[CVPR-2024] The First High Definition (HD) Event based Visual Object Tracking Benchmark Dataset
52 stars 1 forks source link

关于训练数据集的一些疑惑 #5

Closed HusterYoung closed 6 months ago

HusterYoung commented 6 months ago

作者您好,您在文章中提到Teacher网络的输入同时包含RGB和Event,但是EventVOT这个数据集中仅有Event数据,请问您在训练Teacher网络的时候采用的数据集是什么呢?文章中似乎未提及。 其次,我在尝试复现训练代码的时候,发现默认使用的是EventVOT数据集,这是否意味着训练框架只包含student网络的训练不包含teacher的训练? 最后,我在eventvot.py中的get_frames函数中发现一些问题:frame_event_list = self._get_event_frame(seq_event_path, frame_ids) 这行代码中调用的函数似乎要求数据集中的以.mat为后缀的voxel数据,但是eventvot数据集中似乎没有相关的数据?这导致训练代码无法跑通。 期待您的回复。

wsasdsda commented 6 months ago

您好,感谢您的题问。首先,训练教师网络时用的是COESOT数据集。其次,在训练中使用EventVOT数据集时,我们使用了多视角的数据作为输入,将EventVOT的原始CSV数据转成Event image和Voxel的表达形式来构建教师模型双分支的输入。具体地,训练中我们以Event image 和Voxel作为教师输入,学生网络可以是Event image或Voxel或Timesurface或Reconstructed gray image的形式输入。所以,您的最后一个问题实际上是因为我们教师模型的双分支输入(Event image+Voxel)需要转成对应的数据进行输入。 @HusterYoung

HusterYoung commented 6 months ago

感谢您的解答

您好,感谢您的题问。首先,训练教师网络时用的是COESOT数据集。其次,在训练中使用EventVOT数据集时,我们使用了多视角的数据作为输入,将EventVOT的原始CSV数据转成Event image和Voxel的表达形式来构建教师模型双分支的输入。具体地,训练中我们以Event image 和Voxel作为教师输入,学生网络可以是Event image或Voxel或Timesurface或Reconstructed gray image的形式输入。所以,您的最后一个问题实际上是因为我们教师模型的双分支输入(Event image+Voxel)需要转成对应的数据进行输入。 @HusterYoung