lasot数据集精度复现问题

训练和测试过程中确实存在一些tricks，能显著提升结果。仅举几个例子： 1.使用Optimized DATASETS_RATIO，在训练一定epoch后（e.g., 50, 100），将WebUAV3M_train，TNL2K_train，OTB99L_train三个数据集采样率置零。我们发现不使用OTB99-L，即一开始就将其DATASETS_RATIO置零对训练也没什么影响。

2.使用初始化技巧，例如OSTrack的权重。

3.改进WebUAV3M_train，TNL2K_train，OTB99L_train的标注（包括language descriptions）（启发自VASR [ICCV 2021]，使用更加准确的GT训练模型能明显提点）；或者使用class names等替换（启发自VLT_TT [NeurIPS2022, TPAMI submitting]）

4.对GOT-10k，COCO等数据集使用伪language descriptions（启发自VLT_TT [NeurIPS2022, TPAMI submitting]）。

5.测试时不使用language descriptions，即去掉modal mixup （特别是OTB-99L上的结果能提升不少） lib/models/ostrack/vit_ce.py 注释掉一下几行 line 151 ################################### line 152 # Modal Mixup line 153 # x = language_embeddings_x x + x line 154 # z = language_embeddings_z z + z

主要原因：我们的方法是用language辅助视觉跟踪，如果language不准确（针对当前帧）或者gap很大，反而会降低跟踪性能。

1.WebUAV3M_train，TNL2K_train，OTB99L_train三个数据集的language标注风格与LaSOT等不一样（VLT_TT [NeurIPS2022, TPAMI submitting]）。前三者倾向于描述目标在第一帧的状态（通常无法表征目标在整个视频的变化情况），后者更像是image/video caption。

2.通过实验我们发现WebUAV3M_train这个无人机数据集与GOT数据集存在非常大的domain gap。

不使用太多triacks，一个比较推荐的方案是：权重初始化+training sets of LaSOT, Rf-COCO/COCO, GOT-10k, TrackingNet (Pseudo language descriptions)+more visual/video grounding datasets (e.g., Rf-COCO, VG, ....)

PS: 我们在3090，A6000等机器上都做过测试，开源的权重基本可以达到汇报的效果。重新训练的话可以使用我们的模型作为初始化。

另外，我们发现不同的环境，对现有的VL trackers（例如JointNLT [CVPR 2023], VLT_TT [NeurIPS 2022]）的结果影响非常非常非常大。具体数值，请参考WebUAV-3M [TPAMI 2023] Appendix！

983632847 / All-in-One

lasot数据集精度复现问题 #4