TencentARC / ST-LLM

[ECCV 2024🔥] Official implementation of the paper "ST-LLM: Large Language Models Are Effective Temporal Learners"
Apache License 2.0
112 stars 4 forks source link

MVbench的测试情况 #9

Open ruishuzhao opened 5 months ago

ruishuzhao commented 5 months ago

作者好,我在本地复现了模型的训练过程。采用videochat2相同的训练集,并且修改了你所提到的两个数据集(videochat1 videochatgpt)的标注内容。 采用4个epoch,在mvbench上的性能大概是51.2%(开源模型本地复现性能54.85%) 基于存在差异较大, 请问,在训练过程中有什么需要注意的事项吗?

farewellthree commented 5 months ago

你好,可能是两个方面

  1. 两个epoch应该足够了,多了性能会变差。
  2. 确认用的是qa的config吗,训qa时是不用videochat1的数据的
ruishuzhao commented 5 months ago

你好,可能是两个方面

  1. 两个epoch应该足够了,多了性能会变差。
  2. 确认用的是qa的config吗,训qa时是不用videochat1的数据的

您好,感谢您的回答。 按照您的建议,我使用qa的config配置,然后使用的数据集是qa里面对应的数据集。 因为qa里面的数据集较少,我这里训练出来的模型,在MVbench上的性能更低了。

请问,在训练qa的过程中,都具体用到了哪些训练集呢?

farewellthree commented 5 months ago

训练qa的数据集都在config/instructblipbase_stllm_qa.yaml里。确定每个数据集都可以正常load吗。如果还是解决不掉可以把训练log邮我看一下

ruishuzhao commented 5 months ago

训练qa的数据集都在config/instructblipbase_stllm_qa.yaml里。确定每个数据集都可以正常load吗。如果还是解决不掉可以把训练log邮我看一下

感谢邮件回复。 对于config/instructblipbase_stllm_qa.yaml这里配置里面的: caption_videochatgpt: num_frames: 16。 通过videochat2中caption中没有对应的videochatgpt。 这个数据集对应的是conversation_videochatgpt 这个数据集吗? videochat2的数据集配置如下:https://github.com/OpenGVLab/Ask-Anything/blob/main/video_chat2/configs/instruction_data.py 另外,我这边最后的loss降至0.3+左右。

farewellthree commented 5 months ago

是的。conversation_videochatgpt和caption_videochatgpt是同一个数据。loss最后在0.3-0.5是正常的。另外在128的batch下epoch数是多少呢

ruishuzhao commented 5 months ago

是的。conversation_videochatgpt和caption_videochatgpt是同一个数据。loss最后在0.3-0.5是正常的。另外在128的batch下epoch数是多少呢

感谢回复~ 在epoch为2,128batch的情况下,step数量为6146。总视频标注条数接近39.4w。 因为这些数据集在下载的过程中,有些视频是丢失的。我这边根据丢失视频情况,对的anno标注数据进行了少量的清洗。 请问你那边step的数量大概是多少呢?