MVbench的测试情况 - Githubissues

TencentARC / ST-LLM

[ECCV 2024🔥] Official implementation of the paper "ST-LLM: Large Language Models Are Effective Temporal Learners"

Apache License 2.0

112 stars 4 forks source link

MVbench的测试情况 #9

Open ruishuzhao opened 5 months ago

ruishuzhao commented 5 months ago

作者好，我在本地复现了模型的训练过程。采用videochat2相同的训练集，并且修改了你所提到的两个数据集（videochat1 videochatgpt）的标注内容。采用4个epoch，在mvbench上的性能大概是51.2%（开源模型本地复现性能54.85%）基于存在差异较大，请问，在训练过程中有什么需要注意的事项吗？

farewellthree commented 5 months ago

你好，可能是两个方面

两个epoch应该足够了，多了性能会变差。
确认用的是qa的config吗，训qa时是不用videochat1的数据的

ruishuzhao commented 5 months ago

你好，可能是两个方面

两个epoch应该足够了，多了性能会变差。

确认用的是qa的config吗，训qa时是不用videochat1的数据的

您好，感谢您的回答。按照您的建议，我使用qa的config配置，然后使用的数据集是qa里面对应的数据集。因为qa里面的数据集较少，我这里训练出来的模型，在MVbench上的性能更低了。

请问，在训练qa的过程中，都具体用到了哪些训练集呢？

farewellthree commented 5 months ago

训练qa的数据集都在config/instructblipbase_stllm_qa.yaml里。确定每个数据集都可以正常load吗。如果还是解决不掉可以把训练log邮我看一下

ruishuzhao commented 5 months ago

训练qa的数据集都在config/instructblipbase_stllm_qa.yaml里。确定每个数据集都可以正常load吗。如果还是解决不掉可以把训练log邮我看一下

感谢邮件回复。对于config/instructblipbase_stllm_qa.yaml这里配置里面的： caption_videochatgpt: num_frames: 16。 通过videochat2中caption中没有对应的videochatgpt。这个数据集对应的是conversation_videochatgpt 这个数据集吗？ videochat2的数据集配置如下：https://github.com/OpenGVLab/Ask-Anything/blob/main/video_chat2/configs/instruction_data.py 另外，我这边最后的loss降至0.3+左右。

farewellthree commented 5 months ago

是的。conversation_videochatgpt和caption_videochatgpt是同一个数据。loss最后在0.3-0.5是正常的。另外在128的batch下epoch数是多少呢

ruishuzhao commented 5 months ago

是的。conversation_videochatgpt和caption_videochatgpt是同一个数据。loss最后在0.3-0.5是正常的。另外在128的batch下epoch数是多少呢

感谢回复~ 在epoch为2，128batch的情况下，step数量为6146。总视频标注条数接近39.4w。因为这些数据集在下载的过程中，有些视频是丢失的。我这边根据丢失视频情况，对的anno标注数据进行了少量的清洗。请问你那边step的数量大概是多少呢？