OpenGVLab / Ask-Anything

[CVPR2024 Highlight][VideoChatGPT] ChatGPT with video understanding! And many more supported LMs such as miniGPT4, StableLM, and MOSS.
https://vchat.opengvlab.com/
MIT License
2.85k stars 230 forks source link

输出文本长度偏短 #134

Closed LiJiaqi96 closed 2 months ago

LiJiaqi96 commented 4 months ago

您好,我尝试使用部分数据复现video_chat2三阶段训练,3~5个epoch后loss降低,之后使用训练后的模型做推理,发现相比您Github release的stage3 model,模型输出文本长度偏短,对视频中的细节也没有刻画。
我使用的训练数据来自HuggingFace -- VideoChat2-IT,使用了除了k700之外全部的video数据,没有使用image部分的数据。
请问您在训练时有遇到过这种情况吗?有没有一些解决思路参考下呢?谢谢!

Andy1621 commented 4 months ago

从你描述的实验来看的话,估计原因是image指令数据的缺失,视频指令数据大部分为短answer。可以适当加一部分llava和图像问答如VQAv2/OKVQA的数据,在LLaVA1.5的实验表中,这几个数据集对benchmark的影响也比较关键

image
LiJiaqi96 commented 4 months ago

感谢您的及时解答!我添加一下image长answer尝试一下