983632847 / All-in-One

All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment
MIT License
10 stars 0 forks source link

lasot数据集精度复现问题 #4

Closed hmbb123 closed 5 months ago

hmbb123 commented 5 months ago

作者您好,非常感谢您的相关工作,我按照您开源的代码和相关配置进行了重新训练,从tnl2k数据集的AUC来看可以复现论文精度,但是lasot数据集的精度(AUC和P)无法复现,远远不及您开源的指标。请问您在训练过程中是否有一些特殊配置或者参数设置没有在这里特别指出?特别针对LASOT数据集,如果有的话,麻烦您提供一下,谢谢,期待您的回复

983632847 commented 5 months ago

训练和测试过程中确实存在一些tricks,能显著提升结果。仅举几个例子: 1.使用Optimized DATASETS_RATIO,在训练一定epoch后(e.g., 50, 100),将WebUAV3M_train,TNL2K_train,OTB99L_train三个数据集采样率置零。我们发现不使用OTB99-L,即一开始就将其DATASETS_RATIO置零对训练也没什么影响。

2.使用初始化技巧,例如OSTrack的权重。

3.改进WebUAV3M_train,TNL2K_train,OTB99L_train的标注(包括language descriptions)(启发自VASR [ICCV 2021],使用更加准确的GT训练模型能明显提点);或者使用class names等替换(启发自VLT_TT [NeurIPS2022, TPAMI submitting])

4.对GOT-10k,COCO等数据集使用伪language descriptions(启发自VLT_TT [NeurIPS2022, TPAMI submitting])。

5.测试时不使用language descriptions,即去掉modal mixup (特别是OTB-99L上的结果能提升不少) lib/models/ostrack/vit_ce.py 注释掉一下几行 line 151 ################################### line 152 # Modal Mixup line 153 # x = language_embeddings_x x + x line 154 # z = language_embeddings_z z + z

主要原因:我们的方法是用language辅助视觉跟踪,如果language不准确(针对当前帧)或者gap很大,反而会降低跟踪性能。

1.WebUAV3M_train,TNL2K_train,OTB99L_train三个数据集的language标注风格与LaSOT等不一样(VLT_TT [NeurIPS2022, TPAMI submitting])。前三者倾向于描述目标在第一帧的状态(通常无法表征目标在整个视频的变化情况),后者更像是image/video caption。

2.通过实验我们发现WebUAV3M_train这个无人机数据集与GOT数据集存在非常大的domain gap。

不使用太多triacks,一个比较推荐的方案是: 权重初始化+training sets of LaSOT, Rf-COCO/COCO, GOT-10k, TrackingNet (Pseudo language descriptions)+more visual/video grounding datasets (e.g., Rf-COCO, VG, ....)

PS: 我们在3090,A6000等机器上都做过测试,开源的权重基本可以达到汇报的效果。重新训练的话可以使用我们的模型作为初始化。

另外,我们发现不同的环境,对现有的VL trackers(例如JointNLT [CVPR 2023], VLT_TT [NeurIPS 2022])的结果影响非常非常非常大。具体数值,请参考WebUAV-3M [TPAMI 2023] Appendix!