983632847 / All-in-One

All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment
MIT License
13 stars 1 forks source link

如何获取更加准确的GT? #5

Closed Xuchen-Li closed 6 months ago

Xuchen-Li commented 7 months ago

作者您好,非常感谢您的工作。

在上一个issue中您提到了下面这一点: 改进WebUAV3M_train,TNL2K_train,OTB99L_train的标注(包括language descriptions)(启发自VASR [ICCV 2021],使用更加准确的GT训练模型能明显提点);或者使用class names等替换(启发自VLT_TT [NeurIPS2022, TPAMI submitting])

对于语言分支,使用class names等替换文本很容易实现,对于视觉分支,"使用更加准确的GT训练模型"该如何实现? VASR可以提供更加准确的边界框注释,并且通过实验证明了精确的GT可以提升跟踪精度,但是相关工具并未开源,文章中提到的更准确的边界框注释也没有公开。 请问如何获取更加准确的GT?

983632847 commented 6 months ago

如果长期在tracking这个方向做研究的话,可以通过手动或者半自动化的方式对数据标注进行一遍清洗(校正)。现在很多数据集的标注(bounding box)都不太准确,用这些数据训练会损害模型。

Xuchen-Li commented 6 months ago

非常感谢!