关于训练数据集的一些疑惑

Event-AHU / EventVOT_Benchmark

[CVPR-2024] The First High Definition (HD) Event based Visual Object Tracking Benchmark Dataset

52 stars 1 forks source link

关于训练数据集的一些疑惑 #5

Closed HusterYoung closed 6 months ago

HusterYoung commented 6 months ago

作者您好，您在文章中提到Teacher网络的输入同时包含RGB和Event，但是EventVOT这个数据集中仅有Event数据，请问您在训练Teacher网络的时候采用的数据集是什么呢？文章中似乎未提及。其次，我在尝试复现训练代码的时候，发现默认使用的是EventVOT数据集，这是否意味着训练框架只包含student网络的训练不包含teacher的训练？最后，我在eventvot.py中的get_frames函数中发现一些问题：frame_event_list = self._get_event_frame(seq_event_path, frame_ids) 这行代码中调用的函数似乎要求数据集中的以.mat为后缀的voxel数据，但是eventvot数据集中似乎没有相关的数据？这导致训练代码无法跑通。期待您的回复。

wsasdsda commented 6 months ago

您好，感谢您的题问。首先，训练教师网络时用的是COESOT数据集。其次，在训练中使用EventVOT数据集时，我们使用了多视角的数据作为输入，将EventVOT的原始CSV数据转成Event image和Voxel的表达形式来构建教师模型双分支的输入。具体地，训练中我们以Event image 和Voxel作为教师输入，学生网络可以是Event image或Voxel或Timesurface或Reconstructed gray image的形式输入。所以，您的最后一个问题实际上是因为我们教师模型的双分支输入（Event image＋Voxel）需要转成对应的数据进行输入。 @HusterYoung

HusterYoung commented 6 months ago

感谢您的解答

您好，感谢您的题问。首先，训练教师网络时用的是COESOT数据集。其次，在训练中使用EventVOT数据集时，我们使用了多视角的数据作为输入，将EventVOT的原始CSV数据转成Event image和Voxel的表达形式来构建教师模型双分支的输入。具体地，训练中我们以Event image 和Voxel作为教师输入，学生网络可以是Event image或Voxel或Timesurface或Reconstructed gray image的形式输入。所以，您的最后一个问题实际上是因为我们教师模型的双分支输入（Event image＋Voxel）需要转成对应的数据进行输入。 @HusterYoung